GGUF: Definição e significado — Wiki de IA

O formato de arquivo padrão para rodar modelos de linguagem quantizados localmente via llama.cpp, Ollama e outras ferramentas de inferência local. Arquivos GGUF contêm os pesos do modelo em formato quantizado (reduzindo precisão de 16-bit para 4-bit ou 8-bit), junto com metadados como vocabulário, detalhes da arquitetura e parâmetros de quantização — tudo necessário para carregar e executar o modelo em um único arquivo.

Por que isso importa

GGUF é o formato que tornou a IA local prática. Antes dele, rodar modelos localmente exigia configurações complexas com PyTorch, CUDA e memória de GPU específica. GGUF empacota tudo em um arquivo que llama.cpp ou Ollama podem carregar diretamente — em CPU, em Apple Silicon, em GPUs gamer, em qualquer lugar. Se você vê um modelo no Hugging Face com nomes de arquivo como "Q4_K_M.gguf", esse é um modelo pronto para uso local.

Em profundidade

GGUF sucedeu o GGML (o formato original), adicionando um sistema de metadados mais extensível e suporte para novos tipos de quantização. Um lançamento típico de modelo inclui múltiplas variantes GGUF em diferentes níveis de quantização: Q2_K (menor, menor qualidade), Q4_K_M (ponto ideal popular), Q5_K_M (melhor qualidade, maior), Q6_K, Q8_0 (qualidade próxima do original, maior). A convenção de nomes indica a largura em bits e o método de quantização.

Variantes de Quantização

O "K" em Q4_K_M refere-se a métodos k-quant que usam diferentes larguras de bits para diferentes camadas com base em sua sensibilidade — camadas de atenção podem receber maior precisão do que camadas feed-forward. O "M" significa "medium" (entre "S" para small/agressivo e "L" para large/conservador). Q4_K_M tipicamente preserva 95%+ da qualidade original do modelo enquanto reduz o tamanho do arquivo em 4x comparado a FP16. Para a maioria dos usuários, Q4_K_M ou Q5_K_M é a escolha certa.

O Ecossistema

GGUF se tornou a língua franca da IA local. Membros da comunidade quantizam novos modelos para GGUF em horas após o lançamento e os enviam para o Hugging Face. Ferramentas como llama.cpp, Ollama, LM Studio, GPT4All e kobold.cpp suportam GGUF nativamente. Esse ecossistema é o motivo pelo qual você pode baixar um modelo de 70B em quantização 4-bit (cerca de 40 GB) e rodá-lo em um MacBook Pro com 64 GB de RAM em menos de um minuto do download até a primeira resposta.

GGUF

Por que isso importa

Em profundidade

Variantes de Quantização

O Ecossistema

Conceitos relacionados