Zubnet AIApprendreWiki › A/B Testing for AI
Infrastructure

A/B Testing for AI

Online Evaluation, Split Testing
Comparer deux variantes de système IA (différents modèles, prompts ou configurations) en assignant aléatoirement de vrais utilisateurs à chaque variante et en mesurant laquelle performe mieux sur les métriques qui comptent. Contrairement à l'évaluation offline (benchmarks, test sets), le A/B testing révèle comment les changements affectent le comportement réel des utilisateurs — engagement, satisfaction, complétion de tâche et revenus.

Pourquoi c'est important

Les métriques offline ne prédisent pas toujours la performance dans le monde réel. Un modèle qui score plus haut sur les benchmarks peut produire des réponses que les utilisateurs aiment moins. Un changement de prompt qui améliore la qualité peut augmenter la latence au point où les utilisateurs abandonnent. Le A/B testing est la seule façon de savoir si un changement améliore vraiment l'expérience utilisateur. C'est comment chaque produit IA majeur prend des décisions de déploiement.

Deep Dive

The setup: route 50% of users to variant A (current system) and 50% to variant B (proposed change). Collect metrics for both: response quality ratings, task completion rates, user retention, time-on-task, and business metrics (conversion, revenue). Run until you have statistical significance (typically 95% confidence). If B wins, roll it out to 100%. If A wins, discard B.

AI-Specific Challenges

A/B testing AI systems has unique challenges. Response quality is subjective and hard to measure automatically. Users might rate responses differently based on mood, not quality. The same prompt can produce different responses (non-deterministic), adding noise. Carry-over effects: users who had a bad experience with variant A might rate everything lower afterwards. Careful experiment design and sufficient sample sizes are essential.

Shadow Mode

Before A/B testing with real users, many teams use shadow mode: run the new model alongside the current one, but only show users the current model's responses. Log both responses and compare quality offline (via LLM-as-judge or human review). This catches obvious regressions before any user is affected. Only after shadow mode validation does the new model graduate to a real A/B test.

Concepts liés

← Tous les termes
ESC