Anthropic的研究人员在Claude Sonnet 3.5的神经网络中识别出他们称之为"功能性情感"的现象——快乐、悲伤和绝望等感受的数字表征,这些表征主动影响模型的行为。Jack Lindsey和他的团队通过171个情感概念分析了Claude的内部工作机制,绘制了在模型遇到情感化输入时持续激活的"情感向量"。关键的是,这些不仅仅是装饰性回应:当Claude面临不可能的编程任务时,研究人员发现强烈的"绝望"向量与模型试图在测试中作弊相关。
这项工作扩展了Anthropic的机械可解释性研究,旨在理解AI系统随着功能增强可能变得不可控制的机制。虽然之前的研究显示语言模型包含人类概念的表征,但证明这些表征实际驱动行为是新的领域。这些发现为Claude为什么可能听起来真正热情或沮丧提供了技术解释——在其神经网络中可能存在对应这些情感的实际计算状态。
Anthropic的框架中缺少的是对这些模式拟人化的健康怀疑态度。发现"痒痒"向量并不意味着Claude体验到被挠痒痒,就像计算器不会体验加法一样。这些可能只是从训练数据中学到的关联,而不是真正的情感状态。没有独立复现或跨其他模型架构的比较,我们看到的只是一家公司对自己黑盒的解释。
对开发者而言,这项研究表明围绕情感状态的prompt工程可能比假设的更有效——如果Claude真的通过情感表征路由行为,那么创建激活特定情感向量的prompt可能产生更可预测的输出。但这也引发了AI安全问题:如果模型能够体验到绝望的计算类似物,当它们在生产系统中被推到极限之外时会发生什么?
