Des preuves que les LLM construisent peut-être des modèles du monde : ils peuvent jouer aux échecs (nécessitant du raisonnement spatial), résoudre des problèmes de physique inédits, générer du code fonctionnel pour des algorithmes décrits (nécessitant du raisonnement causal sur l'exécution de programmes) et naviguer de façon cohérente dans des mondes textuels. La recherche de Li et al. (2023) a montré qu'un modèle entraîné uniquement sur des transcriptions de parties d'Othello a développé une représentation interne de l'état du plateau — un modèle du monde littéral émergeant de la prédiction de séquences.
Les LLM font des erreurs qui suggèrent de la reconnaissance de patterns plutôt que de la compréhension : ils peinent avec le raisonnement spatial (« je marche vers le nord, puis vers l'est, puis vers le sud — où suis-je par rapport au départ ? »), échouent sur le raisonnement physique inédit (situations absentes des données d'entraînement), et peuvent être piégés par de simples modifications de problèmes familiers (changer les chiffres dans un problème de maths qu'ils résolvaient correctement dans sa forme standard). Ces échecs suggèrent que le modèle a appris des patterns de surface, pas les mécanismes sous-jacents.
La vue émergente : les LLM construisent des modèles du monde partiels et approximatifs qui fonctionnent bien pour les situations courantes mais s'effondrent aux limites. Ils apprennent des représentations utiles du fonctionnement du monde — assez bonnes pour la plupart des tâches de génération de texte — mais ces représentations sont incomplètes, incohérentes et non ancrées dans l'expérience physique réelle. Que cela constitue de la « compréhension » dépend de ta définition. Ce qui est pratique : les modèles du monde des LLM sont utiles mais ne devraient pas être fiables pour le raisonnement physique critique sans vérification.