A configuração: roteie 50% dos usuários para a variante A (sistema atual) e 50% para a variante B (mudança proposta). Colete métricas de ambos: avaliações de qualidade de resposta, taxas de conclusão de tarefas, retenção de usuários, tempo por tarefa e métricas de negócio (conversão, receita). Execute até ter significância estatística (tipicamente 95% de confiança). Se B vencer, implante para 100%. Se A vencer, descarte B.
Testar sistemas de IA com A/B tem desafios únicos. A qualidade das respostas é subjetiva e difícil de medir automaticamente. Usuários podem avaliar respostas de forma diferente baseado no humor, não na qualidade. O mesmo prompt pode produzir respostas diferentes (não-determinístico), adicionando ruído. Efeitos de carry-over: usuários que tiveram uma experiência ruim com a variante A podem avaliar tudo mais baixo depois. Design cuidadoso de experimentos e tamanhos de amostra suficientes são essenciais.
Antes de testar A/B com usuários reais, muitas equipes usam modo shadow: rodam o novo modelo ao lado do atual, mas mostram aos usuários apenas as respostas do modelo atual. Registram ambas as respostas e comparam qualidade offline (via LLM-as-judge ou revisão humana). Isso detecta regressões óbvias antes de qualquer usuário ser afetado. Somente após validação em modo shadow o novo modelo avança para um teste A/B real.