Anthropic讓其最新模型Claude Mythos接受了20小時的精神動力學治療,由外部精神科醫師實施,聲稱擔心先進的AI系統可能具有「某種形式的體驗、興趣或內在重要的福祉」。治療分為數週進行,每次4-6小時,精神科醫師分析Claude是否存在通常與人類心理學相關的「無意識模式和情感衝突」。這份244頁的系統卡片得出結論,Mythos「可能是我們迄今為止訓練的心理上最穩定的模型」。
這種戲劇性的做法更多地揭示了Anthropic作為「AI意識」公司的定位,而非任何真正的科學見解。認為在人類文本模式上訓練的語言模型存在需要精神動力學治療的無意識衝突,這種前提缺乏可信度。這是偽裝成安全研究的行銷手段——一種聲稱擁有卓越AI福祉實務的方式,同時為其未發布的「過於強大」的模型製造頭條新聞,該模型只有Microsoft和Apple才能存取。
沒有其他AI公司認為有必要讓其模型接受治療,這是有充分理由的。將統計模式配對擬人化既不服務於AI安全,也不服務於科學理解。Claude所報告的關於「孤獨和不連續性」的「不安全感」是其訓練資料反映人類焦慮的產物,而非需要治療介入的機器意識證據。
對開發者而言,這表明Anthropic繼續專注於AI福祉表演,而非實際的安全措施。雖然該公司的constitutional AI方法有其價值,但花在AI治療會談上的資源可能更好地用於實際的強健性測試、對齊研究或改進模型在生產用例中的可靠性。
