基础设施

A/B Testing for AI

别名：在线评估、分流测试

通过将真实用户随机分配到两个AI系统变体（不同的模型、提示或配置）来比较它们，并衡量哪个在关键指标上表现更好。与离线评估（基准测试、测试集）不同，A/B测试揭示变更如何影响实际用户行为——参与度、满意度、任务完成率和收入。

为什么重要

离线指标并不总能预测真实世界的表现。在基准测试上得分更高的模型可能产生用户不太喜欢的回应。提高质量的提示更改可能增加延迟到用户放弃的程度。A/B测试是知道变更是否真正改善用户体验的唯一方法。这是每个主要AI产品做出部署决策的方式。

深度解析

设置：将50%的用户路由到变体A（当前系统），50%到变体B（提议的更改）。收集两者的指标：回应质量评分、任务完成率、用户留存率、任务用时和业务指标（转化率、收入）。运行直到达到统计显著性（通常95%的置信度）。如果B胜出，推广到100%。如果A胜出，放弃B。

AI特有的挑战

A/B测试AI系统有独特的挑战。回应质量是主观的，难以自动衡量。用户可能根据心情而非质量来评分。相同的提示可能产生不同的回应（非确定性），增加了噪声。残留效应：在变体A中有过不好体验的用户可能之后对所有东西评分都更低。仔细的实验设计和足够的样本量至关重要。

影子模式

在对真实用户进行A/B测试之前，许多团队使用影子模式：将新模型与当前模型并行运行，但只向用户展示当前模型的回应。记录两个回应并离线比较质量（通过LLM作为评判者或人工审核）。这在任何用户受到影响之前捕获明显的退化。只有在影子模式验证之后，新模型才会进入真正的A/B测试。

相关概念

← 所有术语