Zubnet AIसीखेंWiki › A/B Testing for AI
इन्फ्रास्ट्रक्चर

AI के लिए A/B Testing

इसे भी कहा जाता है: Online Evaluation, Split Testing
दो AI system variants (विभिन्न मॉडल, prompts, या configurations) की तुलना करना, वास्तविक उपयोगकर्ताओं को प्रत्येक variant में randomly assign करके और यह मापकर कि कौन महत्वपूर्ण metrics पर बेहतर प्रदर्शन करता है। Offline evaluation (benchmarks, test sets) के विपरीत, A/B testing दर्शाता है कि परिवर्तन वास्तविक उपयोगकर्ता व्यवहार को कैसे प्रभावित करते हैं — engagement, संतुष्टि, task completion, और revenue।

यह क्यों मायने रखता है

Offline metrics हमेशा वास्तविक-दुनिया के प्रदर्शन की भविष्यवाणी नहीं करते। एक मॉडल जो benchmarks पर अधिक score करता है, ऐसे responses उत्पन्न कर सकता है जो उपयोगकर्ताओं को कम पसंद आते हैं। एक prompt परिवर्तन जो गुणवत्ता सुधारता है, latency को इतना बढ़ा सकता है कि उपयोगकर्ता छोड़ दें। A/B testing यह जानने का एकमात्र तरीका है कि कोई परिवर्तन वास्तव में उपयोगकर्ता अनुभव को सुधारता है। इसी तरह हर प्रमुख AI उत्पाद deployment निर्णय लेता है।

गहन अध्ययन

सेटअप: 50% उपयोगकर्ताओं को variant A (वर्तमान system) और 50% को variant B (प्रस्तावित परिवर्तन) पर भेजें। दोनों के लिए metrics एकत्र करें: response गुणवत्ता रेटिंग, task completion दरें, उपयोगकर्ता retention, task पर समय, और व्यावसायिक metrics (conversion, revenue)। तब तक चलाएँ जब तक आपके पास सांख्यिकीय significance (आमतौर पर 95% confidence) न हो। यदि B जीतता है, तो 100% पर roll out करें। यदि A जीतता है, तो B को छोड़ दें।

AI-विशिष्ट चुनौतियाँ

AI systems का A/B testing करने में अनूठी चुनौतियाँ हैं। Response गुणवत्ता व्यक्तिपरक है और स्वचालित रूप से मापना कठिन है। उपयोगकर्ता गुणवत्ता के बजाय मनोदशा के आधार पर responses को अलग-अलग rate कर सकते हैं। एक ही prompt अलग-अलग responses उत्पन्न कर सकता है (non-deterministic), जो noise जोड़ता है। Carry-over effects: जिन उपयोगकर्ताओं का variant A के साथ बुरा अनुभव था, वे बाद में सब कुछ कम rate कर सकते हैं। सावधान experiment design और पर्याप्त sample sizes आवश्यक हैं।

Shadow Mode

वास्तविक उपयोगकर्ताओं के साथ A/B testing से पहले, कई टीमें shadow mode का उपयोग करती हैं: नए मॉडल को वर्तमान के साथ चलाएँ, लेकिन उपयोगकर्ताओं को केवल वर्तमान मॉडल के responses दिखाएँ। दोनों responses log करें और offline गुणवत्ता तुलना करें (LLM-as-judge या मानव समीक्षा के माध्यम से)। यह किसी भी उपयोगकर्ता के प्रभावित होने से पहले स्पष्ट regressions को पकड़ता है। केवल shadow mode validation के बाद ही नया मॉडल वास्तविक A/B test में आता है।

संबंधित अवधारणाएँ

← सभी शब्द
AGI →
ESC