Zubnet AI學習Wiki › A/B Testing for AI
基礎設施

AI 的 A/B 測試

別名:線上評估、分流測試
透過隨機將真實使用者分配到兩個 AI 系統變體(不同的模型、提示或配置),比較哪個在關鍵指標上表現更好。與離線評估(基準測試、測試集)不同,A/B 測試揭示變更如何影響實際使用者行為——參與度、滿意度、任務完成率和營收。

為什麼重要

離線指標不一定能預測真實世界的表現。在基準測試中得分更高的模型可能產生使用者較不喜歡的回應。提高品質的提示變更可能增加延遲到使用者放棄的程度。A/B 測試是了解變更是否真正改善使用者體驗的唯一方法。這是每個主要 AI 產品做部署決策的方式。

深度解析

設置:將 50% 的使用者路由到變體 A(當前系統),50% 路由到變體 B(建議的變更)。收集兩者的指標:回應品質評分、任務完成率、使用者留存率、任務時間和商業指標(轉換率、營收)。運行直到達到統計顯著性(通常 95% 信心水準)。如果 B 勝出,全面推出。如果 A 勝出,放棄 B。

AI 特有的挑戰

A/B 測試 AI 系統有獨特的挑戰。回應品質是主觀的,難以自動衡量。使用者可能根據心情而非品質來評分。相同的提示可能產生不同的回應(非確定性),增加噪音。殘留效應:在變體 A 有過不好體驗的使用者之後可能對所有東西評分都更低。謹慎的實驗設計和充足的樣本量至關重要。

影子模式

在對真實使用者進行 A/B 測試之前,許多團隊使用影子模式:讓新模型與當前模型並行運行,但只向使用者展示當前模型的回應。記錄兩者的回應並離線比較品質(透過 LLM 評審或人工審查)。這能在任何使用者受到影響之前捕捉明顯的回退。只有通過影子模式驗證後,新模型才能進入真正的 A/B 測試。

← 所有術語
ESC