Hallucination não é um bug que será corrigido na próxima versão — é uma consequência estrutural de como modelos de linguagem funcionam. Um modelo gera texto prevendo o token mais provável dado tudo que veio antes dele. Ele não tem um banco de dados interno de fatos, nenhuma forma de verificar afirmações contra a realidade e nenhum conceito de verdade versus falsidade. Quando produz uma declaração que soa plausível mas é falsa, está fazendo exatamente o que foi treinado para fazer: gerar texto fluente e contextualmente apropriado. O problema é que "contextualmente apropriado" e "factualmente correto" não são a mesma coisa, e o modelo não tem nenhum mecanismo para distinguir entre eles.
As hallucinations mais perigosas são as sutis. Um modelo que inventa uma pessoa completamente fictícia é fácil de detectar. Um modelo que atribui uma citação real à pessoa errada, cita um artigo real com o ano errado, ou gera um endpoint de API que parece plausível mas não existe — esses são mais difíceis. Desenvolvedores aprenderam isso da pior maneira. Há casos bem conhecidos de advogados que submeteram petições jurídicas geradas por IA com citações de casos fabricadas que pareciam perfeitamente formatadas, mas referenciavam casos que nunca existiram. Hallucinations de código são igualmente comuns: um modelo pode sugerir importar uma função de biblioteca que foi renomeada três versões atrás, ou referenciar uma assinatura de método que quase-mas-não-exatamente corresponde à real.
Vários fatores tornam a hallucination mais ou menos provável. Configurações mais altas de temperature aumentam a aleatoriedade, o que pode aumentar as taxas de hallucination em perguntas factuais. Perguntar sobre tópicos obscuros que apareceram raramente nos dados de treinamento produz mais hallucinations do que perguntar sobre assuntos bem cobertos. Saídas mais longas e complexas têm mais oportunidades para dar errado. E os modelos são particularmente propensos a hallucinations quando estão sob pressão para produzir uma resposta — se você faz uma pergunta e o modelo não sabe, seu treinamento o inclina a gerar uma resposta que soa confiante em vez de dizer "não tenho certeza". É por isso que dar explicitamente ao modelo permissão para dizer "não sei" reduz as taxas de hallucination de forma mensurável.
A indústria desenvolveu uma estratégia de defesa em camadas. Grounding e RAG fornecem fontes externas para o modelo referenciar em vez de depender da memória paramétrica. Configurações mais baixas de temperature reduzem a aleatoriedade para tarefas factuais. Prompts de sistema podem instruir o modelo a citar fontes e sinalizar incerteza. Verificações pós-geração — passar a saída por um segundo modelo ou por um pipeline de checagem de fatos — detectam alguns erros antes de chegarem aos usuários. Anthropic, OpenAI e Google investiram pesadamente em treinar modelos para serem melhor calibrados sobre sua própria incerteza, de modo que são mais propensos a ponderar ou recusar do que confabular. Mas nenhuma dessas defesas é perfeita, e tratar qualquer saída de IA como verdade absoluta sem verificação continua arriscado para qualquer coisa consequente.
Um equívoco que vale esclarecer: as taxas de hallucination melhoraram dramaticamente entre gerações de modelos, e algumas pessoas extrapolam isso para concluir que o problema será "resolvido" em breve. Provavelmente não será, pelo menos não completamente, porque a própria arquitetura não possui um mecanismo de verificação de verdade. O que está melhorando é a calibração — modelos modernos produzem hallucinations com menos frequência e são melhores em expressar incerteza. Mas "com menos frequência" não é "nunca", e em domínios de alto risco como medicina, direito ou finanças, mesmo uma taxa de 1% de hallucination em afirmações factuais é inaceitável sem verificação humana. A conclusão prática é projetar seus sistemas presumindo que o modelo ocasionalmente estará errado e incorporar verificação ao seu fluxo de trabalho em vez de esperar que a próxima atualização do modelo torne isso desnecessário.