GGUF sucedió a GGML (el formato original), añadiendo un sistema de metadatos más extensible y soporte para nuevos tipos de cuantización. Un lanzamiento de modelo típico incluye múltiples variantes GGUF con diferentes niveles de cuantización: Q2_K (más pequeño, menor calidad), Q4_K_M (punto óptimo popular), Q5_K_M (mejor calidad, más grande), Q6_K, Q8_0 (calidad casi original, más grande). La convención de nombres indica el ancho de bits y el método de cuantización.
La "K" en Q4_K_M se refiere a métodos k-quant que usan diferentes anchos de bits para diferentes capas según su sensibilidad — las capas de atención podrían obtener mayor precisión que las capas feed-forward. La "M" significa "medium" (entre "S" para small/agresivo y "L" para large/conservador). Q4_K_M típicamente preserva el 95%+ de la calidad del modelo original mientras reduce el tamaño del archivo 4x comparado con FP16. Para la mayoría de los usuarios, Q4_K_M o Q5_K_M es la elección correcta.
GGUF se ha convertido en la lingua franca de la IA local. Miembros de la comunidad cuantizan nuevos modelos a GGUF en cuestión de horas tras su lanzamiento y los suben a Hugging Face. Herramientas como llama.cpp, Ollama, LM Studio, GPT4All y kobold.cpp soportan GGUF nativamente. Este ecosistema es la razón por la que puedes descargar un modelo de 70B en cuantización de 4 bits (unos 40 GB) y ejecutarlo en un MacBook Pro con 64 GB de RAM en menos de un minuto desde la descarga hasta la primera respuesta.