Quantização: Definição e significado — Wiki de IA

Reduzir a precisão de um modelo para torná-lo menor e mais rápido. Um modelo treinado em ponto flutuante de 32 bits pode ser quantizado para 8 bits, 4 bits ou ainda menos — reduzindo seu tamanho em 4-8x com perda de qualidade surpreendentemente pequena. GGUF é o formato popular para inferência local via llama.cpp.

Por que isso importa

Quantização é o que torna possível rodar um modelo de 14B parâmetros em uma única GPU ou até em um laptop. Sem ela, modelos open-weights seriam inutilizáveis para a maioria das pessoas. As variantes Q4_K_M e Q5_K_M atingem o ponto ideal de tamanho vs. qualidade.

Em profundidade

Para entender quantização, você precisa entender o que está sendo comprimido. O "conhecimento" de uma rede neural é armazenado como bilhões de parâmetros numéricos (pesos), cada um sendo um número de ponto flutuante. Durante o treinamento, estes são tipicamente armazenados em FP32 (ponto flutuante de 32 bits) ou BF16 (bfloat16, 16 bits). Um modelo de 7 bilhões de parâmetros em BF16 ocupa 7B × 2 bytes = 14GB de memória. A quantização reduz a precisão de cada peso — representando-o com menos bits. Em INT8 (inteiro de 8 bits), esse mesmo modelo encolhe para ~7GB. Em INT4 (4 bits), são ~3,5GB. A percepção-chave é que pesos de redes neurais são surpreendentemente redundantes — você realmente não precisa de 16 bits de precisão para representá-los de forma útil. A maioria dos pesos se agrupa em torno de zero e pode ser aproximada com representações muito mais grosseiras.

Formatos e Métodos

Os principais formatos de quantização que você encontrará adotam diferentes abordagens técnicas. GPTQ (otimizado para GPU, quantização pós-treinamento) foi um dos primeiros métodos práticos — analisa como os pesos interagem durante a inferência real em dados de calibração e os quantiza de forma a minimizar a propagação de erro. AWQ (Activation-aware Weight Quantization) melhorou isso focando na pequena porcentagem de pesos que mais importam para a qualidade do modelo e protegendo-os com maior precisão. GGUF é o formato usado pelo llama.cpp e é projetado para quantização flexível de precisão mista em CPUs e GPUs. A convenção de nomenclatura em arquivos GGUF diz o que você está obtendo: Q4_K_M significa quantização de 4 bits usando o método K-quant em qualidade média. Q5_K_M é 5 bits. Q2_K é 2 bits agressivo (perda de qualidade notável). Q8_0 é 8 bits (quase sem perdas).

Qualidade vs. Compressão

A perda de qualidade da quantização é real mas frequentemente exagerada. Ir de BF16 para Q8 (8 bits) é essencialmente grátis — benchmarks tipicamente mostram menos de 0,5% de degradação em avaliações padrão. Q5_K_M ainda retém a maior parte da capacidade do modelo e é frequentemente o ponto ideal para inferência local. Q4_K_M é onde você começa a notar diferenças sutis: o modelo pode ser levemente menos preciso com números, ocasionalmente perder o fio em saídas muito longas, ou ser marginalmente pior ao seguir instruções complexas. Abaixo de 4 bits, a qualidade degrada mais notavelmente — quantizações Q2 e Q3 podem tornar um modelo visivelmente menos inteligente, especialmente em tarefas de raciocínio. A regra geral é: quantize até Q4_K_M ou Q5_K_M para uso diário, e vá mais baixo apenas se literalmente não conseguir caber o modelo na sua VRAM.

O Bônus de Velocidade

Há uma segunda dimensão da quantização que frequentemente é esquecida: ela não apenas economiza memória, torna a inferência mais rápida. Isso é contra-intuitivo se você pensa em matemática quantizada como "aproximada" e portanto mais lenta. Mas para inferência de LLM, o gargalo durante a geração de tokens é ler os pesos do modelo da VRAM (largura de banda de memória), não computar com eles. Um modelo Q4 tem metade dos dados para ler comparado ao Q8, então tokens saem aproximadamente duas vezes mais rápido — assumindo que seu engine de inferência suporta adequadamente computação quantizada. É por isso que llama.cpp rodando um modelo Q4_K_M em uma GPU desktop pode às vezes igualar os tokens por segundo de uma API em nuvem: o modelo quantizado é genuinamente mais eficiente por unidade de hardware. O trade-off é sempre o mesmo — você está trocando alguma qualidade por velocidade e acessibilidade — mas para muitas aplicações, é uma troca que vale muito a pena.

Nascido Quantizado

O desenvolvimento mais recente que vale conhecer é o quantization-aware training (QAT), onde o modelo é treinado com quantização em mente desde o início em vez de ser quantizado após o fato. A Meta lançou versões QAT de modelos Llama que superam equivalentes quantizados pós-treinamento na mesma largura de bits. Essa abordagem produz modelos que "nascem" para funcionar em menor precisão em vez de tê-la imposta, e provavelmente é para onde o campo está indo à medida que a inferência local continua a crescer.

Quantização