一種模型,建立世界如何運作的內部表示 — 不僅是統計相關性,還包括因果關係、物理定律和空間推理。關於 LLM 是否擁有世界模型的辯論是 AI 中最有爭議的話題之一:它們是真正理解物體掉落會落下,還是僅僅知道「落下」在文本中經常跟在「掉落」之後?
世界模型處於 AI 最重要問題的核心:理解是否需要的不僅是模式匹配?如果 LLM 建立了真正的世界模型,它們比我們想的更接近理解。如果沒有,那麼存在一個僅靠擴展規模無法彌合的根本能力差距。答案對 AI 安全、能力以及通往更通用智慧的道路都有重大影響。
LLM 可能建立世界模型的證據:它們可以下棋(需要空間推理)、解決新穎的物理問題、為描述的演算法生成可運行的程式碼(需要關於程式執行的因果推理),以及一致地在基於文本的世界中導航。Li 等人(2023 年)的研究表明,一個僅在 Othello 遊戲記錄上訓練的模型發展出了棋盤狀態的內部表示 — 一個從序列預測中浮現的字面上的世界模型。
LLM 犯的錯誤暗示模式匹配而非理解:它們在空間推理方面困難重重(「我向北走,然後向東,然後向南 — 我相對於起點在哪裡?」),在新穎的物理推理方面失敗(訓練資料中沒有的情況),並且可以被對熟悉問題的簡單修改所欺騙(改變它以標準形式正確解決的數學問題中的數字)。這些失敗表明模型學習了表面模式,而非底層機制。
新興觀點:LLM 建立了部分的、近似的世界模型,在常見情況下運作良好但在邊緣處崩潰。它們學習了世界如何運作的有用表示 — 對大多數文本生成任務來說足夠好 — 但這些表示是不完整的、不一致的,且不基於實際的物理經驗。這是否構成「理解」取決於你的定義。實用的觀點是:LLM 的世界模型是有用的,但在沒有驗證的情況下不應信任於安全關鍵的物理推理。