Por grande parte de sua história, o NLP era um exercício de engenharia criativa em torno do fato de que os computadores não têm ideia do que as palavras significam. Os primeiros sistemas dependiam de representações de saco de palavras — literalmente contando quantas vezes cada palavra aparece em um documento e ignorando totalmente a ordem das palavras. O TF-IDF melhorou isso ao ponderar palavras raras com mais peso do que palavras comuns, o que tornou a busca e a recuperação de documentos surpreendentemente eficazes para o quão crú era o método. Depois, o word2vec chegou em 2013 e mudou tudo ao aprender representações de vetores densos em que palavras com significados semelhantes ficavam próximas umas das outras no espaço vetorial. Pela primeira vez, um modelo conseguia capturar que "rei" menos "homem" mais "mulher" aproximadamente equivale a "rainha." Redes neurais recorrentes e LSTMs avançaram ainda mais ao processar o texto sequencialmente, mantendo um estado oculto que carregava informações adiante em uma frase. Eles funcionavam, mas eram lentos para treinamento, tinham dificuldades com dependências de longo alcance e cada tarefa de NLP — tradução, resumo, resposta a perguntas — exigia sua própria arquitetura personalizada.
O artigo de 2017 "Attention Is All You Need" não introduziu apenas uma nova arquitetura — ele colapsou todo um ecossistema de modelos especializados em uma única designação geral. O mecanismo de atenção auto-atenção do Transformer permitiu que o modelo ponderasse a relevância de cada palavra contra todas as outras palavras na entrada simultaneamente, eliminando o gargalo sequencial das RNNs. O que ninguém antecipou plenamente foi quão bem essa arquitetura escalaria. Pré-treinar um Transformer grande em suficiente texto faz com que ele aprenda a fazer tradução, resumo, análise de sentimento, geração de código e dezenas de outras tarefas sem ser explicitamente treinado para nenhuma delas. O BERT mostrou isso no lado da compreensão em 2018, o GPT-2 mostrou isso no lado da geração em 2019, e até 2023 o padrão estava claro: uma única arquitetura, escalada com mais dados e computação, havia efetivamente unificado todo o campo do NLP.
Apesar da dominância dos LLMs, as tarefas clássicas de NLP não desapareceram — apenas mudaram de contexto. O reconhecimento de entidades nomeadas (extrair nomes, datas, organizações do texto), marcação de partes do discurso, análise de sentimento e classificação de texto ainda estão presentes em todos os sistemas de produção. A pergunta é quando usar um modelo dedicado versus apenas perguntar a um LLM. Se você estiver processando milhões de avaliações de clientes por dia para extrair sentimentos, um classificador BERT ajustado rodando em uma única GPU será ordens de grandeza mais barato e rápido do que enviar cada avaliação para o GPT-4. Se você estiver construindo uma pipeline de análise única ou lidando com uma tarefa que exige julgamento nuanceado, uma chamada para um LLM faz mais sentido. A economia favorece modelos especializados em escala e LLMs para flexibilidade e baixo volume.
Isso levanta a questão do pipeline. Fluxos de trabalho tradicionais de NLP são pipelines explícitos: tokenizar o texto, aplicar marcação de partes do discurso, executar análise de dependência, extrair entidades, classificar intenção. Ferramentas como spaCy e NLTK foram construídas para essa abordagem, e ainda são excelentes quando você precisa de processamento determinístico e inspecionável com alta throughput. A alternativa — jogar o texto bruto em um LLM e pedir que ele faça tudo em uma única etapa — é sedutoramente simples, mas vem com trade-offs. LLMs são não determinísticos, caros por chamada e difíceis de depurar quando cometem erros. Na prática, a maioria dos sistemas de NLP em produção em 2026 são híbridos: pipelines estruturados para as partes que precisam de velocidade e consistência, chamadas de LLM para as partes que precisam de raciocínio e flexibilidade. Um sistema de suporte ao cliente pode usar o spaCy para extrair entidades e classificar intenção, e depois passar apenas para um LLM para gerar a resposta real.
O NLP multilíngue avançou muito, mas o abismo entre o inglês e tudo o mais permanece firmemente real. Modelos como mBERT, XLM-R e as variantes multilíngues de GPT e Gemini podem lidar com dezenas de idiomas, e a transferência interlinguística — treinar com dados em inglês e aplicar o modelo a francês ou hindi — funciona surpreendentemente bem para idiomas de alto recurso. O problema é a cauda longa. Existem cerca de 7.000 idiomas falados na Terra, e a maioria tem praticamente nenhum texto digital para treinamento. Tokenizers treinados principalmente em inglês cortam idiomas como tailandês, khmer ou inuktitut em sequências de tokens absurdamente longas, o que degrada tanto o desempenho quanto o custo. Mesmo para idiomas de recursos médios como vietnamita ou swahili, a qualidade do modelo cai notavelmente em comparação com o inglês. A causa raiz é os dados: modelos de NLP aprendem com texto, e a internet é overwhelmingmente em inglês. Corrigir isso não é apenas um desafio técnico — é uma questão de quais idiomas podem participar da revolução da IA e quais ficam para trás.