一位研究人員在美國、英國和亞洲的小企業、醫療機構和非營利組織中研究了AI部署,他指出了我們評估AI系統時的根本缺陷:它們在隔離環境中測試,但在團隊中使用。差距是驚人的——FDA批准的放射學AI在基準測試中超越專家放射科醫師,但仍會拖慢醫院工作人員的速度,因為他們難以在特定的報告標準和監管要求內解釋輸出結果。
這不僅僅是學術問題。組織正在基於基準測試分數做出數百萬美元的部署決策,而這些分數對真實世界效能的預測價值為零。我們在最佳化錯誤的指標,同時錯過了只有在AI與實際人類工作流程長期互動時才會出現的系統性風險。目前的方法產生了很好的標題,但部署結果糟糕。
提議的解決方案——Human-AI, Context-Specific Evaluation (HAIC)基準測試——將在實際使用AI系統的混亂複雜環境中進行測試。這些基準測試不是衡量AI是否在孤立任務中擊敗人類,而是評估AI在整合到現有團隊和組織流程中時在更長時間範圍內的表現。
對於開發者和AI建構者來說,這項研究突出了我們在部署前驗證系統方式中的關鍵差距。如果你在建構AI工具,考慮在宣稱效能提升之前在真實使用者的實際工作環境中測試它們。如果你的AI讓團隊變慢而不是更快,98%的準確率分數就毫無意義。
