Anthropic廣泛流傳的圖表聲稱AI具有執行22個工作類別中80%任務的「理論能力」,但這並非基於他們自己的模型測試。相反,它引用了OpenAI 2023年8月的一項研究,該研究使用了人類標註員——而非這些領域的實際工作者——來猜測GPT-4或「預期的LLM驅動軟體」是否能將任務完成時間減少50%。該研究分析了O*NET的詳細工作分解,但「理論」評估來自AI研究員對未來能力的有根據猜測,而非實證證據。

這很重要,因為該圖表一直作為即將發生工作替代的證據在流傳,而實際上它只是一年多前關於生產力改進的推測,而非工作替代。研究人員明確專注於「同等品質」的時間節省,而非完全自動化。然而Anthropic的視覺化讓人覺得當前的LLM理論上能夠執行從法律服務到管理等各個領域的絕大部分人類工作。

特別說明問題的是,「觀察到的暴露度」(紅色區域)與「理論能力」(藍色區域)相比仍然微不足道。這個差距揭示了實際AI部署遠遠落後於研究員的推測。2023年的研究無法考慮現實世界的實施挑戰、監管限制,或加速任務與完全替代工作者之間的區別。

對於構建AI工具的開發者來說,這種脫節凸顯了為什麼使用者研究和現實世界測試比理論評估更重要。在假設你的AI能處理任何工作類別的80%之前,請與這些領域的實際從業者進行測試——而非讓AI研究員做有根據的猜測。