LLM可能构建了世界模型的证据:它们可以下国际象棋(需要空间推理)、解决新颖的物理问题、为描述的算法生成可运行的代码(需要对程序执行的因果推理)、以及一致地导航基于文本的世界。Li等人(2023)的研究表明,仅在Othello游戏记录上训练的模型发展出了棋盘状态的内部表示——一个从序列预测中涌现的字面意义上的世界模型。
LLM犯的错误暗示模式匹配而非理解:它们在空间推理方面挣扎(“我向北走,然后向东,然后向南——我相对于起点在哪里?”)、在新颖的物理推理方面失败(训练数据中不存在的情境)、以及可以被对熟悉问题的简单修改所迷惑(改变它以标准形式正确解决的数学问题中的数字)。这些失败表明模型学习了表面模式,而非底层机制。
正在形成的观点是:LLM构建了部分的、近似的世界模型,对常见情况有效但在边界处崩溃。它们学习了世界如何运作的有用表示——对大多数文本生成任务来说足够好——但这些表示是不完整的、不一致的,且没有建立在实际的物理体验之上。这是否构成“理解”取决于你的定义。务实来看:LLM的世界模型是有用的,但不应在没有验证的情况下信赖它们进行安全关键的物理推理。