Evidência de que LLMs podem construir modelos de mundo: eles podem jogar xadrez (exigindo raciocínio espacial), resolver problemas de física inéditos, gerar código funcional para algoritmos descritos (exigindo raciocínio causal sobre execução de programas) e navegar mundos baseados em texto consistentemente. Pesquisa de Li et al. (2023) mostrou que um modelo treinado apenas em transcrições de jogos de Othello desenvolveu uma representação interna do estado do tabuleiro — um modelo de mundo literal emergindo da predição de sequências.
LLMs cometem erros que sugerem correspondência de padrões em vez de compreensão: eles têm dificuldade com raciocínio espacial ("eu ando para o norte, depois para o leste, depois para o sul — onde estou em relação ao início?"), falham em raciocínio físico inédito (situações que não estão nos dados de treinamento) e podem ser enganados por modificações simples em problemas familiares (mudar números em um problema de matemática que resolveram corretamente na forma padrão). Essas falhas sugerem que o modelo aprendeu padrões de superfície, não mecanismos subjacentes.
A visão emergente: LLMs constroem modelos de mundo parciais e aproximados que funcionam bem para situações comuns mas falham nas bordas. Eles aprendem representações úteis de como o mundo funciona — boas o suficiente para a maioria das tarefas de geração de texto — mas essas representações são incompletas, inconsistentes e não fundamentadas em experiência física real. Se isso constitui "compreensão" depende da sua definição. O que é prático: modelos de mundo de LLMs são úteis mas não devem ser confiados para raciocínio físico crítico para segurança sem verificação.