GGUF sucedeu o GGML (o formato original), adicionando um sistema de metadados mais extensível e suporte para novos tipos de quantização. Um lançamento típico de modelo inclui múltiplas variantes GGUF em diferentes níveis de quantização: Q2_K (menor, menor qualidade), Q4_K_M (ponto ideal popular), Q5_K_M (melhor qualidade, maior), Q6_K, Q8_0 (qualidade próxima do original, maior). A convenção de nomes indica a largura em bits e o método de quantização.
O "K" em Q4_K_M refere-se a métodos k-quant que usam diferentes larguras de bits para diferentes camadas com base em sua sensibilidade — camadas de atenção podem receber maior precisão do que camadas feed-forward. O "M" significa "medium" (entre "S" para small/agressivo e "L" para large/conservador). Q4_K_M tipicamente preserva 95%+ da qualidade original do modelo enquanto reduz o tamanho do arquivo em 4x comparado a FP16. Para a maioria dos usuários, Q4_K_M ou Q5_K_M é a escolha certa.
GGUF se tornou a língua franca da IA local. Membros da comunidade quantizam novos modelos para GGUF em horas após o lançamento e os enviam para o Hugging Face. Ferramentas como llama.cpp, Ollama, LM Studio, GPT4All e kobold.cpp suportam GGUF nativamente. Esse ecossistema é o motivo pelo qual você pode baixar um modelo de 70B em quantização 4-bit (cerca de 40 GB) e rodá-lo em um MacBook Pro com 64 GB de RAM em menos de um minuto do download até a primeira resposta.