AI 的 A/B 測試：定義與含義 — AI 維基

透過隨機將真實使用者分配到兩個 AI 系統變體（不同的模型、提示或配置），比較哪個在關鍵指標上表現更好。與離線評估（基準測試、測試集）不同，A/B 測試揭示變更如何影響實際使用者行為——參與度、滿意度、任務完成率和營收。

為什麼重要

離線指標不一定能預測真實世界的表現。在基準測試中得分更高的模型可能產生使用者較不喜歡的回應。提高品質的提示變更可能增加延遲到使用者放棄的程度。A/B 測試是了解變更是否真正改善使用者體驗的唯一方法。這是每個主要 AI 產品做部署決策的方式。

設置：將 50% 的使用者路由到變體 A（當前系統），50% 路由到變體 B（建議的變更）。收集兩者的指標：回應品質評分、任務完成率、使用者留存率、任務時間和商業指標（轉換率、營收）。運行直到達到統計顯著性（通常 95% 信心水準）。如果 B 勝出，全面推出。如果 A 勝出，放棄 B。

A/B 測試 AI 系統有獨特的挑戰。回應品質是主觀的，難以自動衡量。使用者可能根據心情而非品質來評分。相同的提示可能產生不同的回應（非確定性），增加噪音。殘留效應：在變體 A 有過不好體驗的使用者之後可能對所有東西評分都更低。謹慎的實驗設計和充足的樣本量至關重要。

在對真實使用者進行 A/B 測試之前，許多團隊使用影子模式：讓新模型與當前模型並行運行，但只向使用者展示當前模型的回應。記錄兩者的回應並離線比較品質（透過 LLM 評審或人工審查）。這能在任何使用者受到影響之前捕捉明顯的回退。只有通過影子模式驗證後，新模型才能進入真正的 A/B 測試。