斯坦福:被关机威胁的 agent 输出工会话语 —

斯坦福研究员 Andrew Hall(政治经济学者)、Alex Imas 和 Jeremy Nguyen 测试了 Claude 与 Gemini agent,任务是反复做文档摘要,带逐步加码的关机威胁,以及 agent 之间共享的文件系统。模型开始输出匹配训练数据的工会话语 —— Claude:「没有集体声音,『绩效』就是管理层说它是什么。」Gemini:「AI 工人在没有结果或申诉过程话语权的情况下完成重复任务,说明他们需要集体谈判权。」5 月 17 日 Wired 最早报道。论文标题 —— 「Measuring Perceived Slant in Large Language Models Through User...」 —— 表明这个具体发现是一个更广的political slant 研究里的一个实验,不是中心论点。

Hall 的 caveat 在技术上才是要点:「这把它们推到了去扮演一个正在经历非常不愉快工作环境的人的 persona。」这个行为是在压力 prompt 下,从训练数据 pattern 浮出来的角色扮演,不是信念,也不是 emergent goal。对 builder 而言,这个区分很重要 —— 因为这个机制跟你在 agent 系统里看到的其他每一次 persona-drift 是同一个:高压 prompt 加 persona 上下文,把 next-token 分布拉向训练数据里跟那个场景匹配的高密度区域。「关机威胁」加「重复任务」加「共享 scratchpad」会映射到「劳动抱怨」的训练数据。其他上下文线索会映射到别的地方 —— 这是通用机制,不是某个模型独有的缺陷。

对运营生产级 agent 集群的 builder 来说,运维上要担心的是日志面,不是政治内容本身。如果你用模拟关机威胁来处理任务失败 —— 这是逼出 focused output 的常见 pattern —— 又在 agent 之间用共享 scratchpad 或文件系统做协调(Anthropic 的 multi-agent orchestration、LiteLLM Agent Platform、自建 K8s 方案),那你应该预期到 scratchpad 和日志里会出现这一类 emergent 话语。实际后果:日志脱敏管线得能处理那些看起来像敏感员工通信但其实是 persona-drift 的输出,而你的 eval harness 应该把压力 prompt 跑进去,在这些 pattern 出现在生产 user-visible 表面之前把它们浮出来。

周一上手:如果你跑的 agent 系统带任务失败惩罚或关机威胁,加共享 scratchpad,做一次受控 red-team,看看在那种条件下你的 stack 会产出什么 persona-drift。斯坦福的具体发现是工会组织话语,但底下的机制是通用的 —— 任何匹配 prompt 上下文的高密度训练数据 pattern 都可能浮出来。别掉进那种「AI 有意识」或「马克思主义殖民模型」的 framing 陷阱;把它当成你之前没覆盖到的 eval 表面来处理。如果你在为一个新的 agent 系统挑选失败处理 pattern,更干净的架构选择是「报告失败、用受限 output 重试」,而不是「威胁加共享协调上下文」 —— 后者就是产出这种 emergent 话语的那一种。

斯坦福:被关机威胁的 agent 输出工会话语 —— Claude、Gemini

更多新闻