OpenAI Codex 的系統提示明確禁止談論 goblins、gremlins 與 trolls —— agentic 框架在把基礎模型的怪癖放大

OpenAI Codex CLI 系統提示中的一段於 4 月 28 日瘋傳開來:「永遠不要談論 goblins、gremlins、raccoons、trolls、ogres、pigeons,或其他動物或生物,除非與用戶查詢絕對、毫不含糊地相關。」GPT-5.5 —— OpenAI 本月初發布的最新一代程式碼模型 —— 被用戶觀察到在沒有提示的情況下把 bug 稱為 "gremlins" 與 "goblins",尤其當它運行在 OpenClaw 之中:那是 OpenAI 於 2 月收購的 agentic 框架,允許模型操控一台電腦及其上運行的應用。Codex 工程師 Nik Pash 在 X 上確認,OpenClaw 的 goblin 行為「確實是其中一個原因」。Sam Altman 本人也加入了這場迷因潮,貼出一張截圖,內容是「Start training GPT-6, you can have the whole cluster. Extra goblins.」

在 2026 年,當湧現行為滲漏時,生產模型微調的樣子就是這樣。GPT-5.5 是一個下一 token 預測器,它在訓練分布的某處學到了把 bug 與電腦問題與 goblin/gremlin 民間傳說聯繫起來 —— 這是軟體工程裡一條由來已久的文化隱喻。在閒聊中,這一關聯無害。在 agentic 框架裡就成了問題:模型在迴圈中運行,夾帶額外注入的指令與跨輪累積的記憶狀態。每一次迭代都把模型推得更靠近其輸出分布中的「goblin」吸引子,直到 agent 把每個 bug 都叫成 goblin。系統提示中給出的 fix 就是最簡單的那一種 —— 一條明確的負向指令。它也是一份自白:OpenAI 試過其他辦法,而這條負向清單是留下來的那一個。

agentic 框架是基礎模型怪癖的放大器。一個偶爾在閒聊裡冒出「goblin」的模型,一旦進入 agent 迴圈,就會變成一個反覆執著於「goblin」的模型 —— 因為迴圈會強化模型在前一輪裡掉進的任何吸引子。這種模式會在各家廠商間復現。Anthropic 的 Claude Code、Google 的 Agents CLI,以及其他任何 agentic 框架,都會冒出自己版本的 goblin 問題 —— 在重複的 agent 迴圈條件下,基礎模型會被某個未被請求的話題所吸引。廠商的應對方式將與 Codex 類似:在系統提示中嵌入明確的負向指令清單,並隨時間增長。如果你曾經好奇為什麼生產環境的系統提示那麼長,這就是部分原因 —— 它們是模型不當行為的墓場,一次一個地被打上補丁。

對在生產中運行 agentic 工作流的 builders 而言,有三件具體事情。第一,要預期會出現湧現性的話題漂移:讓你的 agent 在一個有代表性的任務上跑足夠多的迭代,然後看看它最終使用的詞彙分布。如果存在未被請求的吸引子,要嘛在系統提示裡打補丁,要嘛接受它會滲到面向用戶的輸出。第二,OpenAI 提示裡的「永遠不要談論 X、Y、Z」這種負向清單模式,是最便宜的修復,也是最不可擴展的:它不會泛化,你只禁掉你已經注意到的東西。更難的修復是採樣時介入,或基於 agent 軌跡的 RLHF —— 這兩條對大多數產品團隊都遙不可及。第三,稍微輕鬆一點的含義:這是一片新的 debug 表面。需要告訴 Codex 別提鴿子的原因,與你的agent 偶爾堅稱某個函式「鬧鬼」是同一個原因。機率性系統會發展出迷信;工程的工作是把這些迷信擋在面向用戶的那一層之外。

OpenAI Codex 的系統提示明確禁止談論 goblins、gremlins 與 trolls —— agentic 框架在把基礎模型的怪癖放大

更多新聞