GGUF: Definición y significado — Wiki de IA

El formato de archivo estándar para ejecutar modelos de lenguaje cuantizados localmente vía llama.cpp, Ollama y otras herramientas de inferencia local. Los archivos GGUF contienen los pesos del modelo en un formato cuantizado (reduciendo la precisión de 16 bits a 4 u 8 bits), junto con metadatos como vocabulario, detalles de arquitectura y parámetros de cuantización — todo lo necesario para cargar y ejecutar el modelo en un solo archivo.

Por qué importa

GGUF es el formato que hizo práctica la IA local. Antes, ejecutar modelos localmente requería configuraciones complejas con PyTorch, CUDA y memoria GPU específica. GGUF empaqueta todo en un archivo que llama.cpp u Ollama pueden cargar directamente — en CPU, en Apple Silicon, en GPUs de gaming, en cualquier lugar. Si ves un modelo en Hugging Face con nombres de archivo como "Q4_K_M.gguf", ese es un modelo listo para uso local.

En profundidad

GGUF sucedió a GGML (el formato original), añadiendo un sistema de metadatos más extensible y soporte para nuevos tipos de cuantización. Un lanzamiento de modelo típico incluye múltiples variantes GGUF con diferentes niveles de cuantización: Q2_K (más pequeño, menor calidad), Q4_K_M (punto óptimo popular), Q5_K_M (mejor calidad, más grande), Q6_K, Q8_0 (calidad casi original, más grande). La convención de nombres indica el ancho de bits y el método de cuantización.

Variantes de Cuantización

La "K" en Q4_K_M se refiere a métodos k-quant que usan diferentes anchos de bits para diferentes capas según su sensibilidad — las capas de atención podrían obtener mayor precisión que las capas feed-forward. La "M" significa "medium" (entre "S" para small/agresivo y "L" para large/conservador). Q4_K_M típicamente preserva el 95%+ de la calidad del modelo original mientras reduce el tamaño del archivo 4x comparado con FP16. Para la mayoría de los usuarios, Q4_K_M o Q5_K_M es la elección correcta.

El Ecosistema

GGUF se ha convertido en la lingua franca de la IA local. Miembros de la comunidad cuantizan nuevos modelos a GGUF en cuestión de horas tras su lanzamiento y los suben a Hugging Face. Herramientas como llama.cpp, Ollama, LM Studio, GPT4All y kobold.cpp soportan GGUF nativamente. Este ecosistema es la razón por la que puedes descargar un modelo de 70B en cuantización de 4 bits (unos 40 GB) y ejecutarlo en un MacBook Pro con 64 GB de RAM en menos de un minuto desde la descarga hasta la primera respuesta.

GGUF

Por qué importa

En profundidad

Variantes de Cuantización

El Ecosistema

Conceptos relacionados