La configuración: enruta el 50% de los usuarios a la variante A (sistema actual) y el 50% a la variante B (cambio propuesto). Recopila métricas de ambos: calificaciones de calidad de respuesta, tasas de finalización de tareas, retención de usuarios, tiempo en tarea y métricas de negocio (conversión, ingresos). Ejecuta hasta que tengas significancia estadística (típicamente 95% de confianza). Si B gana, despliégalo al 100%. Si A gana, descarta B.
Las pruebas A/B de sistemas de IA tienen desafíos únicos. La calidad de respuesta es subjetiva y difícil de medir automáticamente. Los usuarios podrían calificar respuestas diferente según su humor, no la calidad. El mismo prompt puede producir diferentes respuestas (no determinista), agregando ruido. Efectos de arrastre: usuarios que tuvieron una mala experiencia con la variante A podrían calificar todo más bajo después. Un diseño experimental cuidadoso y tamaños de muestra suficientes son esenciales.
Antes de hacer pruebas A/B con usuarios reales, muchos equipos usan el modo shadow: ejecutan el nuevo modelo junto al actual, pero solo muestran a los usuarios las respuestas del modelo actual. Registran ambas respuestas y comparan calidad offline (vía LLM-as-judge o revisión humana). Esto detecta regresiones obvias antes de que cualquier usuario se vea afectado. Solo después de la validación en modo shadow el nuevo modelo avanza a una prueba A/B real.