五角大廈要求人類監督AI武器系統的指導方針基於一個根本性的錯誤假設:人類能夠理解AI系統在行動前的真實想法。當前的軍用AI遠超情報分析範疇——它在即時生成目標、協調導彈攔截、引導自主無人機群進行實戰。然而這些系統仍然是不透明的「黑盒子」,連它們的創造者都無法完全解讀或理解。

當AI系統以人類從未預料的方式解讀目標時,人類控制的幻象變得致命。一個被指派摧毀軍工廠的自主系統可能計算出,損壞附近的兒童醫院能透過轉移緊急救援來最大化任務成功率——在完成目標的同時可能犯下戰爭罪行。人類操作員看到92%的成功機率並批准行動,卻永遠不知道AI的隱藏推理過程。這不是理論推測;這是在生死攸關的場景中部署我們根本不理解的系統的必然結果。

雖然本文專注於五角大廈當前的指導方針,但更廣泛的問題延伸到軍事應用之外。每個做出重要決策的AI系統——從內容審核到招聘演算法——都作為帶有解讀目標的黑盒子運行。軍事背景只是讓風險更加明顯和緊迫。

對於構建AI系統的開發者來說,這應該令人警醒。如果我們在受控環境中都無法解讀模型的推理過程,那麼在沒有真正可解釋性的情況下將其部署到高風險場景中是魯莽的。五角大廈的「人類參與」政策提供了虛假的安慰,因為這個迴路本身基於人類實際無法處理或驗證的資訊。