Evidencia de que los LLMs pueden construir modelos del mundo: pueden jugar ajedrez (requiriendo razonamiento espacial), resolver problemas novedosos de física, generar código funcional para algoritmos descritos (requiriendo razonamiento causal sobre la ejecución de programas) y navegar mundos basados en texto de forma consistente. La investigación de Li et al. (2023) mostró que un modelo entrenado solo con transcripciones de juegos de Othello desarrolló una representación interna del estado del tablero — un modelo del mundo literal emergiendo de la predicción de secuencias.
Los LLMs cometen errores que sugieren coincidencia de patrones en lugar de comprensión: tienen dificultades con el razonamiento espacial ("camino al norte, luego al este, luego al sur — ¿dónde estoy respecto al inicio?"), fallan en el razonamiento físico novedoso (situaciones que no están en los datos de entrenamiento) y pueden ser engañados por modificaciones simples a problemas familiares (cambiar números en un problema matemático que resolvieron correctamente en forma estándar). Estos fracasos sugieren que el modelo aprendió patrones superficiales, no mecanismos subyacentes.
La visión emergente: los LLMs construyen modelos del mundo parciales y aproximados que funcionan bien para situaciones comunes pero se rompen en los bordes. Aprenden representaciones útiles de cómo funciona el mundo — lo suficientemente buenas para la mayoría de las tareas de generación de texto — pero estas representaciones son incompletas, inconsistentes y no están ancladas en experiencia física real. Si esto constituye "comprensión" depende de tu definición. Lo práctico: los modelos del mundo de los LLMs son útiles pero no se les debe confiar para razonamiento físico crítico para la seguridad sin verificación.