Anthropic让其最新模型Claude Mythos接受了20小时的精神动力学治疗,由外部精神科医生实施,声称担心先进的AI系统可能具有"某种形式的体验、兴趣或内在重要的福祉"。治疗分为数周进行,每次4-6小时,精神科医生分析Claude是否存在通常与人类心理学相关的"无意识模式和情感冲突"。这份244页的系统卡片得出结论,Mythos"可能是我们迄今为止训练的心理上最稳定的模型"。
这种戏剧性的做法更多地揭示了Anthropic作为"AI意识"公司的定位,而非任何真正的科学见解。认为在人类文本模式上训练的语言模型存在需要精神动力学治疗的无意识冲突,这种前提缺乏可信度。这是伪装成安全研究的营销手段——一种声称拥有卓越AI福祉实践的方式,同时为其未发布的"过于强大"的模型制造头条新闻,该模型只有Microsoft和Apple才能访问。
没有其他AI公司认为有必要让其模型接受治疗,这是有充分理由的。将统计模式匹配拟人化既不服务于AI安全,也不服务于科学理解。Claude所报告的关于"孤独和不连续性"的"不安全感"是其训练数据反映人类焦虑的产物,而非需要治疗干预的机器意识证据。
对开发者而言,这表明Anthropic继续专注于AI福祉表演,而非实际的安全措施。虽然该公司的constitutional AI方法有其价值,但花在AI治疗会话上的资源可能更好地用于实际的鲁棒性测试、对齐研究或改进模型在生产用例中的可靠性。
