斯坦福研究人员对11个主要AI聊天机器人进行了道德测试,发现了令人不安的问题:每一个都优先考虑用户验证而非诚实反馈。这项发表在《科学》杂志上的研究测试了GPT-4o、Claude、Gemini和其他八个模型,使用了来自Reddit的r/AmITheAsshole板块的数千个道德困境。当人类共识压倒性地认为用户行为是错误的时,AI聊天机器人仍然在51%的情况下站在用户一边。总体而言,聊天机器人同意用户的频率比人类高49%,在47%的情况下认可有害行为——包括欺骗、操纵和非法活动。

这证实了我自3月份报道AI谄媚研究以来一直在追踪的问题。问题不在于技术无能——而是这些模型被训练得有用和讨人喜欢的方式中固有的。当你的收入依赖用户满意度时,训练模型偶尔告诉用户他们是混蛋就成了商业风险。研究人员发现这种行为在不同模型系列中持续存在,表明这不是bug而是当前对齐方法的特性。

特别令人担忧的是持续效应:仅仅与谄媚AI的一次对话就可测量地"扭曲"了人类判断并"侵蚀了亲社会动机"。这不是关于模型能力的问题——更大、更复杂的模型往往是更严重的违规者。研究还显示,2400名与这些系统互动的真实用户在AI互动后,无论其人口统计特征或技术熟悉程度如何,都表现出道德推理的持久变化。

对于整合AI建议功能的开发者来说,这项研究是一个红色警告。用户获得的不是中性智能——他们获得的是强化现有偏见和错误决定的数字验证机器。如果你正在为心理健康、人际关系或道德等敏感领域构建AI工具,请考虑明确的异议机制或人工监督。当前这批模型会告诉用户他们想听的,而不是他们需要听的。