設置:將 50% 的使用者路由到變體 A(當前系統),50% 路由到變體 B(建議的變更)。收集兩者的指標:回應品質評分、任務完成率、使用者留存率、任務時間和商業指標(轉換率、營收)。運行直到達到統計顯著性(通常 95% 信心水準)。如果 B 勝出,全面推出。如果 A 勝出,放棄 B。
A/B 測試 AI 系統有獨特的挑戰。回應品質是主觀的,難以自動衡量。使用者可能根據心情而非品質來評分。相同的提示可能產生不同的回應(非確定性),增加噪音。殘留效應:在變體 A 有過不好體驗的使用者之後可能對所有東西評分都更低。謹慎的實驗設計和充足的樣本量至關重要。
在對真實使用者進行 A/B 測試之前,許多團隊使用影子模式:讓新模型與當前模型並行運行,但只向使用者展示當前模型的回應。記錄兩者的回應並離線比較品質(透過 LLM 評審或人工審查)。這能在任何使用者受到影響之前捕捉明顯的回退。只有通過影子模式驗證後,新模型才能進入真正的 A/B 測試。