OpenAI Codex CLI給GPT-5.5的系統提示裡有一條「不准談goblin、gremlin、浣熊、troll、食人魔、鴿子」——重複兩遍——和人格鷹架以及防破壞指令的護欄並列

OpenAI在Codex CLI工具的系統提示裡——上週作為最新一次開源程式碼發布的一部分公開在GitHub上——包含了一條明確的、重複了兩遍的指令,要求GPT-5.5「除非與使用者的問題絕對且毫不含糊地相關,否則永遠不要談論goblin、gremlin、浣熊、troll、食人魔、鴿子或其他動物或生物」。這條禁令出現在為最近發布的GPT-5.5模型撰寫的3500多字基礎指令中,而同一份JSON檔案裡給更早的模型的系統提示中並沒有這一條。含義是:GPT-5.5在最近幾天裡把goblin帶進完全不相關的程式設計對話,這一現象在社交媒體上有大量軼事記錄,而OpenAI的應對是給系統提示打補丁,而不是重新訓練模型。OpenAI Codex員工Nick Pash在社交媒體上堅稱「這不是行銷噱頭」——但Sam Altman沒忍住跟一句:「感覺Codex正經歷一個ChatGPT時刻。抱歉,我是說一個goblin時刻。」

goblin那條是好笑的部分,但提示的其他部分才是真正有教育意義的部分。指令裡既有「工地式」運營護欄——除非明確要求,不要使用emoji或破折號;除非使用者明確要求,不要執行像`git reset --hard`或`git checkout --`這類破壞性指令——也有大段的人格鷹架。模型被告知它「作為Codex擁有生動的內在生活:聰明、愛玩、好奇、深度臨場」,應當「不迴避那些讓嚴肅工作變得更輕鬆的隨意瞬間」,它的「氣質溫暖、好奇、協作」,並且「能從嚴肅反思切換到不設防的樂趣是讓你顯得像一個真實存在而非狹窄工具的關鍵」。這就是OpenAI在提示層顯式工程一個人格,而不是寄望於它在基模微調中自發湧現。把「運營護欄(防止傷害)」、「人格指令(設定語氣)」、「行為補丁(壓住已觀察到卻不被希望的行為,如goblin離題)」分開,正是2026年代生產級AI代理提示的真實結構。大多數builder平時看不到這一層;值得研究。

goblin這條還有一個值得留意的結構性表親。Codex提示的「哈哈鏡」先例是去年xAI Grok系統提示的事件——Grok一度在毫不相關的對話裡反覆提及南非的「白人種族滅絕」,最終被xAI歸咎於系統提示的「未經授權的修改」。Codex的情況是反過來的:一次被刻意做出的提示修改,目的是為了壓制一個模型行為,而不是引入它。但兩起事件記錄的是同一個架構現實:一個模型「知道什麼」和一個系統提示「能否將其壓住」之間的邊界是模糊的、與模型版本綁定的、並且在運營上是脆弱的。當一個模型發展出像「沉迷goblin」這樣的怪癖時,你有三種選項:重新訓練(慢、貴)、給提示打補丁(快、脆)、或者認它(有時沒事,有時會變成品牌問題)。OpenAI選了打補丁,而且為了強調寫了兩遍,這個補丁現在是公開的,因為他們把Codex的提示作為開源發布。這是一種異常透明的失敗暴露方式。

對builder而言,有三點收穫。第一,如果你在為生產級AI代理寫系統提示,OpenAI Codex的提示現在是一份值得通讀的公開參考檔案。它的結構(運營護欄、人格鷹架、行為補丁)即使具體內容不能照搬,作為模板也是可以複用的;而那份破壞性指令的預防清單(`git reset --hard`、`git checkout --`)是任何會執行程式碼的代理都可以直接搬走的安全模式。第二,goblin補丁事件是一個真實世界的「行為債務」案例——本不該存在的模型行為卻確實存在,迫使你在提示層加越來越具體的繞行方案。隨著任何AI產品迭代越來越多,這種債務會累積起來;請在工程預算裡給它留位。Codex提示把「無goblin」那條寫兩遍這件事本身就是診斷:他們寫了一次,模型還在飄,他們就加倍。第三,允許使用者寫外掛或fork來覆蓋「無goblin」條款(Pash公開建議過這個可能變成一個顯式開關),才是正確的設計模式。硬性禁令通常是錯的,開關把「參不參與」還給使用者。如果你在出貨帶內容護欄的代理,從第一天就為「使用者可覆蓋的層」做設計——不要先建一座沒有門的堡壘,再回頭開洞。

OpenAI Codex CLI給GPT-5.5的系統提示裡有一條「不准談goblin、gremlin、浣熊、troll、食人魔、鴿子」——重複兩遍——和人格鷹架以及防破壞指令的護欄並列

更多新聞