Zubnet AIAprenderWiki › GGUF
Infraestructura

GGUF

También conocido como: GGML Unified Format
El formato de archivo estándar para ejecutar modelos de lenguaje cuantizados localmente vía llama.cpp, Ollama y otras herramientas de inferencia local. Los archivos GGUF contienen los pesos del modelo en un formato cuantizado (reduciendo la precisión de 16 bits a 4 u 8 bits), junto con metadatos como vocabulario, detalles de arquitectura y parámetros de cuantización — todo lo necesario para cargar y ejecutar el modelo en un solo archivo.

Por qué importa

GGUF es el formato que hizo práctica la IA local. Antes, ejecutar modelos localmente requería configuraciones complejas con PyTorch, CUDA y memoria GPU específica. GGUF empaqueta todo en un archivo que llama.cpp u Ollama pueden cargar directamente — en CPU, en Apple Silicon, en GPUs de gaming, en cualquier lugar. Si ves un modelo en Hugging Face con nombres de archivo como "Q4_K_M.gguf", ese es un modelo listo para uso local.

En profundidad

GGUF sucedió a GGML (el formato original), añadiendo un sistema de metadatos más extensible y soporte para nuevos tipos de cuantización. Un lanzamiento de modelo típico incluye múltiples variantes GGUF con diferentes niveles de cuantización: Q2_K (más pequeño, menor calidad), Q4_K_M (punto óptimo popular), Q5_K_M (mejor calidad, más grande), Q6_K, Q8_0 (calidad casi original, más grande). La convención de nombres indica el ancho de bits y el método de cuantización.

Variantes de Cuantización

La "K" en Q4_K_M se refiere a métodos k-quant que usan diferentes anchos de bits para diferentes capas según su sensibilidad — las capas de atención podrían obtener mayor precisión que las capas feed-forward. La "M" significa "medium" (entre "S" para small/agresivo y "L" para large/conservador). Q4_K_M típicamente preserva el 95%+ de la calidad del modelo original mientras reduce el tamaño del archivo 4x comparado con FP16. Para la mayoría de los usuarios, Q4_K_M o Q5_K_M es la elección correcta.

El Ecosistema

GGUF se ha convertido en la lingua franca de la IA local. Miembros de la comunidad cuantizan nuevos modelos a GGUF en cuestión de horas tras su lanzamiento y los suben a Hugging Face. Herramientas como llama.cpp, Ollama, LM Studio, GPT4All y kobold.cpp soportan GGUF nativamente. Este ecosistema es la razón por la que puedes descargar un modelo de 70B en cuantización de 4 bits (unos 40 GB) y ejecutarlo en un MacBook Pro con 64 GB de RAM en menos de un minuto desde la descarga hasta la primera respuesta.

Conceptos relacionados

← Todos los términos
← Generación de Video GNN →
ESC
Empieza a escribir para buscar...