La configuration : dirige 50 % des utilisateurs vers la variante A (système actuel) et 50 % vers la variante B (changement proposé). Collecte les métriques pour les deux : scores de qualité des réponses, taux de complétion des tâches, rétention des utilisateurs, temps par tâche, et métriques business (conversion, revenus). Continue jusqu'à atteindre la significativité statistique (typiquement 95 % de confiance). Si B gagne, déploie-le à 100 %. Si A gagne, abandonne B.
Les tests A/B de systèmes IA ont des défis uniques. La qualité des réponses est subjective et difficile à mesurer automatiquement. Les utilisateurs peuvent noter différemment selon leur humeur, pas la qualité. Le même prompt peut produire différentes réponses (non-déterministe), ajoutant du bruit. Effets de report : les utilisateurs qui ont eu une mauvaise expérience avec la variante A peuvent tout noter plus bas après. Une conception d'expérience soignée et des tailles d'échantillon suffisantes sont essentielles.
Avant de faire des tests A/B avec de vrais utilisateurs, beaucoup d'équipes utilisent le mode shadow : faire tourner le nouveau modèle en parallèle du modèle actuel, mais ne montrer aux utilisateurs que les réponses du modèle actuel. Logger les deux réponses et comparer la qualité hors ligne (via LLM-as-judge ou revue humaine). Ça attrape les régressions évidentes avant qu'un utilisateur soit affecté. C'est seulement après la validation en mode shadow que le nouveau modèle passe à un vrai test A/B.