Em sua essência, um LLM é uma função que recebe uma sequência de tokens e produz uma distribuição de probabilidade sobre o próximo token. Esse é o truque inteiro. Durante o treinamento, o modelo vê trilhões de tokens de texto e ajusta seus bilhões de parâmetros para melhorar na predição do que vem a seguir. Quando você conversa com o Claude ou o GPT, o modelo gera um token por vez, cada vez alimentando sua própria saída anterior como entrada. Esse processo autorregressivo é o motivo pelo qual você vê as respostas aparecendo palavra por palavra — o modelo genuinamente não sabe o que vai dizer até chegar lá.
A maioria dos LLMs modernos é construída sobre a arquitetura Transformer, apresentada por pesquisadores do Google em 2017. A inovação-chave do Transformer é o mecanismo de atenção, que permite ao modelo olhar para todos os outros tokens na entrada ao decidir o que um determinado token significa. Isso resolve um problema que afligia arquiteturas anteriores (RNNs, LSTMs): elas tinham dificuldade com dependências de longo alcance porque a informação precisava fluir sequencialmente por cada etapa intermediária. A atenção permite que um modelo conecte diretamente "ele" no parágrafo cinco a "o servidor de banco de dados" no parágrafo um, independentemente de quanto texto exista entre eles. Algumas arquiteturas mais recentes como o Mamba usam modelos de espaço de estados em vez de atenção, trocando alguma flexibilidade por eficiência muito melhor em sequências longas, mas os Transformers continuam sendo o paradigma dominante para os maiores modelos.
O "Large" em LLM faz um trabalho real. A escala importa de maneiras que os pesquisadores não esperavam completamente. Um modelo de 1 bilhão de parâmetros consegue lidar com gramática básica e fatos simples. Um modelo de 70 bilhões de parâmetros consegue escrever código funcional e raciocinar em problemas de múltiplas etapas. Os maiores modelos (centenas de bilhões de parâmetros, treinados em trilhões de tokens) exibem capacidades emergentes — habilidades que aparecem subitamente com a escala em vez de melhorar gradualmente. Raciocínio em cadeia de pensamento (chain-of-thought), transferência multilingual e aprendizado em contexto são capacidades que só aparecem de forma confiável quando os modelos cruzam certos limiares de tamanho. Esse comportamento de escalonamento é descrito por "leis de escala" (scaling laws) que relacionam tamanho do modelo, tamanho do dataset e orçamento computacional ao desempenho de maneiras surpreendentemente previsíveis.
Após o pré-treinamento, LLMs brutos não são particularmente úteis para conversar — eles só querem completar texto, então podem continuar sua pergunta com mais perguntas em vez de responder. É aí que entra o alinhamento. Técnicas como RLHF (aprendizado por reforço com feedback humano) e IA constitucional treinam o modelo para ser útil, inofensivo e honesto em vez de apenas um preditor de texto. Essa é a diferença entre um modelo base (como o Llama bruto) e um modelo de chat (como o Claude ou o ChatGPT). O modelo base tem o conhecimento; o alinhamento ensina como usar esse conhecimento em uma conversa.
Uma pegadinha prática que pega muitos desenvolvedores: LLMs não "sabem" coisas da mesma forma que um banco de dados. Eles codificaram padrões estatísticos dos dados de treinamento, o que significa que podem afirmar com confiança coisas que estão sutil ou completamente erradas — alucinação. Também têm uma data de corte de conhecimento e não conseguem acessar informações em tempo real a menos que recebam ferramentas. Os melhores profissionais tratam LLMs como colaboradores muito capazes, porém não confiáveis: ótimos para rascunhos, brainstorming e geração de código, mas exigindo verificação para afirmações factuais. Retrieval-augmented generation (RAG), parsing de saída estruturada e uso de ferramentas são os padrões de engenharia que tornam aplicações baseadas em LLM confiáveis em produção.