Token : Définition et signification — Wiki IA

Le format de fichier standard pour exécuter des modèles de langage quantifiés localement via llama.cpp, Ollama et d'autres outils d'inférence locale. Les fichiers GGUF contiennent les poids du modèle dans un format quantifié (réduisant la précision de 16 bits à 4 ou 8 bits), ainsi que des métadonnées comme le vocabulaire, les détails d'architecture et les paramètres de quantification — tout le nécessaire pour charger et exécuter le modèle dans un seul fichier.

Pourquoi c'est important

GGUF est le format qui a rendu l'IA locale pratique. Avant lui, exécuter des modèles localement nécessitait des configurations complexes avec PyTorch, CUDA et une mémoire GPU spécifique. GGUF emballe tout dans un seul fichier que llama.cpp ou Ollama peut charger directement — sur CPU, sur Apple Silicon, sur des GPU de gaming, partout. Si tu vois un modèle sur Hugging Face avec des noms de fichiers comme « Q4_K_M.gguf », c'est un modèle prêt pour l'utilisation locale.

En profondeur

GGUF a succédé à GGML (le format original), ajoutant un système de métadonnées plus extensible et le support de nouveaux types de quantification. Une release typique de modèle inclut plusieurs variantes GGUF à différents niveaux de quantification : Q2_K (le plus petit, qualité la plus basse), Q4_K_M (le compromis populaire), Q5_K_M (meilleure qualité, plus grand), Q6_K, Q8_0 (qualité quasi-originale, le plus grand). La convention de nommage indique la largeur en bits et la méthode de quantification.

Variantes de quantification

Le « K » dans Q4_K_M fait référence aux méthodes k-quant qui utilisent différentes largeurs de bits pour différentes couches selon leur sensibilité — les couches d'attention peuvent obtenir une plus haute précision que les couches feed-forward. Le « M » signifie « medium » (entre « S » pour small/agressif et « L » pour large/conservateur). Q4_K_M préserve typiquement 95 %+ de la qualité originale du modèle tout en réduisant la taille du fichier par 4x comparé au FP16. Pour la plupart des utilisateurs, Q4_K_M ou Q5_K_M est le bon choix.

L'écosystème

GGUF est devenu la lingua franca de l'IA locale. Les membres de la communauté quantifient les nouveaux modèles en GGUF dans les heures suivant leur sortie et les téléversent sur Hugging Face. Des outils comme llama.cpp, Ollama, LM Studio, GPT4All et kobold.cpp supportent tous GGUF nativement. Cet écosystème est la raison pour laquelle tu peux télécharger un modèle 70B en quantification 4 bits (environ 40 Go) et l'exécuter sur un MacBook Pro avec 64 Go de RAM en moins d'une minute du téléchargement à la première réponse.

GGUF

Pourquoi c'est important

En profondeur

Variantes de quantification

L'écosystème

Concepts connexes