Parâmetros: Definição e significado — Wiki de IA

Os valores internos que uma rede neural aprende durante o treinamento — essencialmente o "conhecimento" do modelo codificado em números. Quando alguém diz que um modelo tem "7 bilhões de parâmetros", significa que há 7 bilhões de valores numéricos individuais que foram ajustados durante o treinamento para capturar padrões nos dados. Mais parâmetros geralmente significa mais capacidade para aprender padrões complexos, mas também mais memória para armazenar e mais cálculo para executar.

Por que isso importa

Contagem de parâmetros é a abreviação mais comum para o tamanho do modelo, e ela determina diretamente quanto de memória da GPU você precisa. Um modelo de 7B em precisão de 16 bits precisa de ~14GB de VRAM apenas para os pesos. Entender os parâmetros ajuda você a estimar custos, escolher hardware e compreender por que a quantização (—reduzir a precisão por parâmetro—) é tão importante para tornar modelos acessíveis.

Em profundidade

Quando uma rede neural treina, ela está ajustando milhões ou bilhões de números organizados em matrizes de pesos e vieses. Cada peso controla quão fortemente um sinal flui de um neurônio para o próximo; cada viés desloca o limiar de ativação. Esses são os parâmetros. O treinamento funciona por meio do descenso do gradiente — o modelo faz uma previsão, mede quão errada ela foi (a perda), depois ajusta cada parâmetro um pouco no sentido que teria feito a previsão ser menos errada. Repita isso bilhões de vezes em trilhões de tokens, e esses parâmetros convergem para algo que pode escrever poesia, depurar código ou explicar mecânica quântica. Os parâmetros não são uma tabela de consulta ou um banco de dados. Eles são uma representação comprimida, distribuída e lossy de padrões nos dados de treinamento, e nenhum único parâmetro "sabe" algo por si só.

A Corrida dos Músculos

A história da inteligência artificial moderna pode ser contada em contagens de parâmetros. O GPT-2 tinha 1,5 bilhão de parâmetros em 2019 e as pessoas achavam que era perigosamente capaz. O GPT-3 chegou em 2020 com 175 bilhões e reescreveu as regras. Cada salto de escala liberou capacidades que modelos menores simplesmente não conseguiam igualar — aprendizado de poucas amostras, escrita coerente em longos formatos, raciocínio básico — e laboratórios correram para treinar modelos cada vez maiores. Isso não era apenas marketing. Leis de escalonamento publicadas pela OpenAI e DeepMind mostraram uma relação notavelmente suave entre contagem de parâmetros, volume de dados de treinamento, orçamento de computação e desempenho do modelo. Mais parâmetros, treinados com mais dados, com mais computação, significavam resultados melhor previsíveis. A corrida dos músculos era racional, pelo menos por um tempo.

Total de Parâmetros vs. Parâmetros Ativos

Nem todos os parâmetros são iguais, e nem todos deles são ativados em cada entrada. Modelos de Mixture-of-Experts (MoE), como Mixtral e (dizem) GPT-4, contêm muitos bilhões de parâmetros totais, mas uma rede de roteamento seleciona apenas um subconjunto de "especialistas" para cada token. O Mixtral 8x7B tem aproximadamente 47 bilhões de parâmetros totais, mas ativa apenas cerca de 13 bilhões por passo de avanço — oferecendo a qualidade de um modelo muito maior ao custo de inferência de um menor. Enquanto isso, a pesquisa de escalonamento Chinchilla da DeepMind em 2022 derrubou totalmente a suposição de que "maior sempre é melhor". Eles mostraram que a maioria dos modelos grandes estava subtreinada: um modelo menor treinado com muito mais dados poderia superar um modelo maior treinado com menos. A Chinchilla, com 70 bilhões de parâmetros treinados em 1,4 trilhão de tokens, venceu o Gopher de 280 bilhões de parâmetros. A lição foi que a contagem de parâmetros sozinha diz muito pouco sem saber quanto de dados e computação foi usada no treinamento.

A Matemática da VRAM

Os parâmetros têm um custo direto e inevitável na memória da GPU. Cada parâmetro armazenado em fp16 (ponto flutuante de 16 bits) ou bf16 ocupa 2 bytes. Um modelo de 7 bilhões de parâmetros, portanto, precisa de aproximadamente 14 GB de VRAM apenas para armazenar os pesos — antes de considerar qualquer outra coisa. Quantize para int8 (inteiros de 8 bits) e isso cai para 7 GB; vá para 4 bits e você está em cerca de 3,5 GB. Isso é inferência. O treinamento é uma criatura totalmente diferente, porque você também precisa armazenar gradientes (do mesmo tamanho que os parâmetros), estados do otimizador (muitas vezes 2x o tamanho dos parâmetros para Adam) e ativações para a retropropagação. Uma regra de palma: treinar um modelo em precisão mista requer no mínimo 4 a 6 bytes por parâmetro e pode chegar a 16 a 20 bytes por parâmetro com estado completo do otimizador e sem otimizações de memória. É por isso que um modelo de 7B que roda confortavelmente em uma única GPU de consumo para inferência requer um cluster de GPUs de data center para treinamento.

Alem da Contagem Bruta

A indústria já se moveu largamente além da crença de que empilhar mais parâmetros é o caminho principal para modelos melhores. A evidência se acumulou de múltiplas direções: a Chinchilla provou que a quantidade de dados importava tanto quanto o tamanho do modelo, modelos de pesos abertos como Llama 3 e Qwen 2.5 mostraram que curadoria cuidadosa de dados e treinamento mais longo poderia tornar modelos de 70B competitivos com modelos muito maiores, e inovações arquitetônicas como MoE, modelos de espaço de estado e mecanismos de atenção melhorados entregaram melhor desempenho por parâmetro do que escalonamento bruto. A fronteira hoje é sobre eficiência de treinamento, qualidade de dados e técnicas pós-treinamento como RLHF e distilação — não apenas fazer o contador de parâmetros subir. A contagem de parâmetros ainda importa como uma proxy aproximada de capacidade, mas está se tornando cada vez a coisa menos interessante sobre um modelo.

Parâmetros