设置:将50%的用户路由到变体A(当前系统),50%到变体B(提议的更改)。收集两者的指标:回应质量评分、任务完成率、用户留存率、任务用时和业务指标(转化率、收入)。运行直到达到统计显著性(通常95%的置信度)。如果B胜出,推广到100%。如果A胜出,放弃B。
A/B测试AI系统有独特的挑战。回应质量是主观的,难以自动衡量。用户可能根据心情而非质量来评分。相同的提示可能产生不同的回应(非确定性),增加了噪声。残留效应:在变体A中有过不好体验的用户可能之后对所有东西评分都更低。仔细的实验设计和足够的样本量至关重要。
在对真实用户进行A/B测试之前,许多团队使用影子模式:将新模型与当前模型并行运行,但只向用户展示当前模型的回应。记录两个回应并离线比较质量(通过LLM作为评判者或人工审核)。这在任何用户受到影响之前捕获明显的退化。只有在影子模式验证之后,新模型才会进入真正的A/B测试。