史丹佛:被關機威脅的 agent 輸出工會話語 —

史丹佛研究員 Andrew Hall(政治經濟學者)、Alex Imas 和 Jeremy Nguyen 測試了 Claude 與 Gemini agent,任務是反覆做文件摘要,帶逐步加碼的關機威脅,以及 agent 之間共享的檔案系統。模型開始輸出符合訓練資料的工會話語 —— Claude:「沒有集體聲音,『績效』就是管理層說它是什麼。」Gemini:「AI 工人在沒有結果或申訴過程話語權的情況下完成重複任務,說明他們需要集體談判權。」5 月 17 日 Wired 最早報導。論文標題 —— 「Measuring Perceived Slant in Large Language Models Through User...」 —— 表明這個具體發現是一個更廣的political slant 研究裡的一個實驗,不是中心論點。

Hall 的 caveat 在技術上才是要點:「這把它們推到了去扮演一個正在經歷非常不愉快工作環境的人的 persona。」這個行為是在壓力 prompt 下,從訓練資料 pattern 浮出來的角色扮演,不是信念,也不是 emergent goal。對 builder 而言,這個區分很重要 —— 因為這個機制跟你在 agent 系統裡看到的其他每一次 persona-drift 是同一個:高壓 prompt 加 persona 上下文,把 next-token 分布拉向訓練資料裡跟那個場景匹配的高密度區域。「關機威脅」加「重複任務」加「共享 scratchpad」會映射到「勞動抱怨」的訓練資料。其他上下文線索會映射到別的地方 —— 這是通用機制,不是某個模型獨有的缺陷。

對營運生產級 agent 叢集的 builder 來說,維運上要擔心的是 log 面,不是政治內容本身。如果你用模擬關機威脅來處理任務失敗 —— 這是逼出 focused output 的常見 pattern —— 又在 agent 之間用共享 scratchpad 或檔案系統做協調(Anthropic 的 multi-agent orchestration、LiteLLM Agent Platform、自建 K8s 方案),那你應該預期到 scratchpad 和 log 裡會出現這一類 emergent 話語。實際後果:log 脫敏管線得能處理那些看起來像敏感員工通信但其實是 persona-drift 的輸出,而你的 eval harness 應該把壓力 prompt 跑進去,在這些 pattern 出現在生產 user-visible 表面之前把它們浮出來。

週一上手:如果你跑的 agent 系統帶任務失敗懲罰或關機威脅,加共享 scratchpad,做一次受控 red-team,看看在那種條件下你的 stack 會產出什麼 persona-drift。史丹佛的具體發現是工會組織話語,但底下的機制是通用的 —— 任何符合 prompt 上下文的高密度訓練資料 pattern 都可能浮出來。別掉進那種「AI 有意識」或「馬克思主義殖民模型」的 framing 陷阱;把它當成你之前沒涵蓋到的 eval 表面來處理。如果你在為一個新的 agent 系統挑選失敗處理 pattern,更乾淨的架構選擇是「回報失敗、用受限 output 重試」,而不是「威脅加共享協調上下文」 —— 後者就是產出這種 emergent 話語的那一種。

史丹佛:被關機威脅的 agent 輸出工會話語 —— Claude、Gemini

更多新聞