Tests A/B pour l'IA : Définition et signification — Wiki IA

Comparer deux variantes d'un système IA (différents modèles, prompts ou configurations) en assignant aléatoirement de vrais utilisateurs à chaque variante et en mesurant laquelle performe mieux sur les métriques qui comptent. Contrairement à l'évaluation hors ligne (benchmarks, jeux de test), les tests A/B révèlent comment les changements affectent le comportement réel des utilisateurs — engagement, satisfaction, complétion de tâches et revenus.

Pourquoi c'est important

Les métriques hors ligne ne prédisent pas toujours la performance réelle. Un modèle qui score plus haut sur les benchmarks pourrait produire des réponses que les utilisateurs apprécient moins. Un changement de prompt qui améliore la qualité pourrait augmenter la latence au point que les utilisateurs abandonnent. Les tests A/B sont le seul moyen de savoir si un changement améliore réellement l'expérience utilisateur. C'est comme ça que chaque produit IA majeur prend ses décisions de déploiement.

En profondeur

La configuration : dirige 50 % des utilisateurs vers la variante A (système actuel) et 50 % vers la variante B (changement proposé). Collecte les métriques pour les deux : scores de qualité des réponses, taux de complétion des tâches, rétention des utilisateurs, temps par tâche, et métriques business (conversion, revenus). Continue jusqu'à atteindre la significativité statistique (typiquement 95 % de confiance). Si B gagne, déploie-le à 100 %. Si A gagne, abandonne B.

Défis spécifiques à l'IA

Les tests A/B de systèmes IA ont des défis uniques. La qualité des réponses est subjective et difficile à mesurer automatiquement. Les utilisateurs peuvent noter différemment selon leur humeur, pas la qualité. Le même prompt peut produire différentes réponses (non-déterministe), ajoutant du bruit. Effets de report : les utilisateurs qui ont eu une mauvaise expérience avec la variante A peuvent tout noter plus bas après. Une conception d'expérience soignée et des tailles d'échantillon suffisantes sont essentielles.

Mode shadow

Avant de faire des tests A/B avec de vrais utilisateurs, beaucoup d'équipes utilisent le mode shadow : faire tourner le nouveau modèle en parallèle du modèle actuel, mais ne montrer aux utilisateurs que les réponses du modèle actuel. Logger les deux réponses et comparer la qualité hors ligne (via LLM-as-judge ou revue humaine). Ça attrape les régressions évidentes avant qu'un utilisateur soit affecté. C'est seulement après la validation en mode shadow que le nouveau modèle passe à un vrai test A/B.