GGUF a succédé à GGML (le format original), ajoutant un système de métadonnées plus extensible et le support de nouveaux types de quantification. Une release typique de modèle inclut plusieurs variantes GGUF à différents niveaux de quantification : Q2_K (le plus petit, qualité la plus basse), Q4_K_M (le compromis populaire), Q5_K_M (meilleure qualité, plus grand), Q6_K, Q8_0 (qualité quasi-originale, le plus grand). La convention de nommage indique la largeur en bits et la méthode de quantification.
Le « K » dans Q4_K_M fait référence aux méthodes k-quant qui utilisent différentes largeurs de bits pour différentes couches selon leur sensibilité — les couches d'attention peuvent obtenir une plus haute précision que les couches feed-forward. Le « M » signifie « medium » (entre « S » pour small/agressif et « L » pour large/conservateur). Q4_K_M préserve typiquement 95 %+ de la qualité originale du modèle tout en réduisant la taille du fichier par 4x comparé au FP16. Pour la plupart des utilisateurs, Q4_K_M ou Q5_K_M est le bon choix.
GGUF est devenu la lingua franca de l'IA locale. Les membres de la communauté quantifient les nouveaux modèles en GGUF dans les heures suivant leur sortie et les téléversent sur Hugging Face. Des outils comme llama.cpp, Ollama, LM Studio, GPT4All et kobold.cpp supportent tous GGUF nativement. Cet écosystème est la raison pour laquelle tu peux télécharger un modèle 70B en quantification 4 bits (environ 40 Go) et l'exécuter sur un MacBook Pro avec 64 Go de RAM en moins d'une minute du téléchargement à la première réponse.