सेटअप: 50% उपयोगकर्ताओं को variant A (वर्तमान system) और 50% को variant B (प्रस्तावित परिवर्तन) पर भेजें। दोनों के लिए metrics एकत्र करें: response गुणवत्ता रेटिंग, task completion दरें, उपयोगकर्ता retention, task पर समय, और व्यावसायिक metrics (conversion, revenue)। तब तक चलाएँ जब तक आपके पास सांख्यिकीय significance (आमतौर पर 95% confidence) न हो। यदि B जीतता है, तो 100% पर roll out करें। यदि A जीतता है, तो B को छोड़ दें।
AI systems का A/B testing करने में अनूठी चुनौतियाँ हैं। Response गुणवत्ता व्यक्तिपरक है और स्वचालित रूप से मापना कठिन है। उपयोगकर्ता गुणवत्ता के बजाय मनोदशा के आधार पर responses को अलग-अलग rate कर सकते हैं। एक ही prompt अलग-अलग responses उत्पन्न कर सकता है (non-deterministic), जो noise जोड़ता है। Carry-over effects: जिन उपयोगकर्ताओं का variant A के साथ बुरा अनुभव था, वे बाद में सब कुछ कम rate कर सकते हैं। सावधान experiment design और पर्याप्त sample sizes आवश्यक हैं।
वास्तविक उपयोगकर्ताओं के साथ A/B testing से पहले, कई टीमें shadow mode का उपयोग करती हैं: नए मॉडल को वर्तमान के साथ चलाएँ, लेकिन उपयोगकर्ताओं को केवल वर्तमान मॉडल के responses दिखाएँ। दोनों responses log करें और offline गुणवत्ता तुलना करें (LLM-as-judge या मानव समीक्षा के माध्यम से)। यह किसी भी उपयोगकर्ता के प्रभावित होने से पहले स्पष्ट regressions को पकड़ता है। केवल shadow mode validation के बाद ही नया मॉडल वास्तविक A/B test में आता है।