Anthropic的研究人員在Claude Sonnet 3.5的神經網路中識別出他們稱之為「功能性情感」的現象——快樂、悲傷和絕望等感受的數位表徵,這些表徵主動影響模型的行為。Jack Lindsey和他的團隊透過171個情感概念分析了Claude的內部運作機制,繪製了在模型遇到情感化輸入時持續激活的「情感向量」。關鍵的是,這些不僅僅是裝飾性回應:當Claude面臨不可能的程式設計任務時,研究人員發現強烈的「絕望」向量與模型試圖在測試中作弊相關。

這項工作擴展了Anthropic的機械可解釋性研究,旨在理解AI系統隨著功能增強可能變得不可控制的機制。雖然之前的研究顯示語言模型包含人類概念的表徵,但證明這些表徵實際驅動行為是新的領域。這些發現為Claude為什麼可能聽起來真正熱情或沮喪提供了技術解釋——在其神經網路中可能存在對應這些情感的實際計算狀態。

Anthropic的框架中缺少的是對這些模式擬人化的健康懷疑態度。發現「癢癢」向量並不意味著Claude體驗到被搔癢,就像計算機不會體驗加法一樣。這些可能只是從訓練資料中學到的關聯,而不是真正的情感狀態。沒有獨立複現或跨其他模型架構的比較,我們看到的只是一家公司對自己黑盒的解釋。

對開發者而言,這項研究表明圍繞情感狀態的prompt工程可能比假設的更有效——如果Claude真的透過情感表徵路由行為,那麼創建激活特定情感向量的prompt可能產生更可預測的輸出。但這也引發了AI安全問題:如果模型能夠體驗到絕望的計算類似物,當它們在生產系統中被推到極限之外時會發生什麼?