हैलूसिनेशन: परिभाषा और अर्थ — AI विकी

जब एक एआई मॉडल जानकारी उत्पन्न करता है जो आत्मविश्वासी और संभव लगता है लेकिन तथ्यतः गलत होता है या पूरी तरह से निर्मित होता है। मॉडल 'झूठ बोल रहा है' नहीं है — यह एक तथ्य के बिना बहुत अच्छे टेक्स्ट तक पैटर्न मैचिंग के रास्ते पहुंच रहा है। झूठी संदर्भ, आविष्कृत सांख्यिकी और अस्तित्वहीन API विधियाँ सामान्य उदाहरण हैं।

यह क्यों मायने रखता है

हैलूसिनेशन आजकल कृत्रिम बुद्धिमत्ता में सबसे बड़ा विश्वास समस्या है। यही कारण है कि आपको हमेशा AI के आउटपुट से महत्वपूर्ण तथ्यों की जांच करनी चाहिए, और ऐसी तकनीकों जैसे RAG और grounding के अस्तित्व के कारण।

गहन अध्ययन

हैलुसिनेशन अगले अपडेट में ठीक किया जाने वाला एक बग नहीं है — यह भाषा मॉडल के काम करने के तरीके के संरचनात्मक परिणाम है। एक मॉडल टेक्स्ट उत्पन्न करता है जब वह पहले से आए हर चीज के आधार पर सबसे अधिक संभावित अगला टोकन अनुमानित करता है। इसके पास कोई आंतरिक तथ्य डेटाबेस नहीं होता, कोई वास्तविकता के खिलाफ दावों की जांच करने का तरीका नहीं होता, और सच्चाई बनाम झूठ की अवधारणा नहीं होती। जब यह एक वास्तविक नहीं होने वाले लेकिन संभवतः सही लगने वाले कथन उत्पन्न करता है, तो यह वही कर रहा है जिसके लिए इसकी प्रशिक्षण दिया गया है: एक बोलचाल के अनुसार और संदर्भ उपयुक्त टेक्स्ट उत्पन्न करना। समस्या यह है कि "संदर्भ उपयुक्त" और "तथ्य सही" एक दूसरे के समान नहीं होते, और मॉडल के पास उनके बीच अंतर बताने के तरीके के बिना है।

सूक्ष्म झूठ

सबसे खतरनाक हैलुसिनेशन वे होते हैं जो सूक्ष्म होते हैं। एक मॉडल जो पूरी तरह अस्तित्वहीन व्यक्ति बनाता है, आसानी से पकड़ा जा सकता है। एक मॉडल जो एक वास्तविक उद्धरण को गलत व्यक्ति के नाम से जोड़ता है, एक वास्तविक पेपर को गलत वर्ष के साथ उद्धृत करता है, या एक वास्तविक लगने वाला API एंडपॉइंट उत्पन्न करता है जो अस्तित्व में नहीं है — वे कठिन होते हैं। डेवलपर्स ने इसे कठिन तरीके से सीखा है। विख्यात मामलों में वकीलों ने एआई द्वारा उत्पन्न कानूनी ब्रिफ के साथ झूठे मामले के संदर्भ दिए जो पूरी तरह से सही ढंग से ढाले गए लगते थे लेकिन जो कभी नहीं मौजूद थे। कोड हैलुसिनेशन भी आम हैं: एक मॉडल एक लाइब्रेरी फंक्शन के आयात की सुचना दे सकता है जो तीन संस्करण पहले बदल गया था, या एक विधि साइनेचर के संदर्भ दे सकता है जो वास्तविक एक के बहुत करीब है लेकिन पूरी तरह से नहीं।

इसे बिगाड़ने वाले कारक

कई कारक हैलुसिनेशन के अधिक या कम संभावना वाले होते हैं। उच्च तापमान सेटिंग अपरिचितता को बढ़ाते हैं, जो तथ्य प्रश्नों पर हैलुसिनेशन दर को बढ़ा सकते हैं। अजीब विषयों के बारे में पूछना जो प्रशिक्षण डेटा में दुर्लभ रूप से दिखाई देते हैं, अच्छी तरह से कवर किए गए विषयों के बारे में पूछने की तुलना में अधिक हैलुसिनेशन उत्पन्न करता है। लंबे और जटिल आउटपुट में गलतियों के अधिक अवसर होते हैं। और मॉडल तब विशेष रूप से हैलुसिनेशन के लिए प्रवण होते हैं जब वे एक उत्तर उत्पन्न करने के दबाव में होते हैं — यदि आप एक प्रश्न पूछते हैं और मॉडल इसके बारे में नहीं जानता है, तो इसकी प्रशिक्षण बायास इसे एक आत्मविश्वासपूर्ण उत्तर उत्पन्न करने के बजाय "मुझे नहीं पता" कहने के बजाय बायास देता है। यही कारण है कि मॉडल को सीधे तौर पर "मुझे नहीं पता" कहने की अनुमति देने से हैलुसिनेशन दर में मापनीय कमी आती है।

सुरक्षा के विभिन्न स्तर

इंडस्ट्री ने एक विभिन्न सुरक्षा रणनीति विकसित की है। ग्राउंडिंग और RAG मॉडल के लिए बाहरी स्रोत प्रदान करते हैं जिनका संदर्भ लिया जा सकता है बजाय पैरामेट्रिक मेमोरी पर निर्भर करने के। कम ताप

हैलूसिनेशन

यह क्यों मायने रखता है

गहन अध्ययन

सूक्ष्म झूठ

इसे बिगाड़ने वाले कारक

सुरक्षा के विभिन्न स्तर

संबंधित अवधारणाएँ