ग्राउंडिंग: परिभाषा और अर्थ — AI विकी

मॉडल के जवाबों को तथ्यात्मक, सत्यापित स्रोतों से जोड़ना, इसके प्रशिक्षण डेटा पर एकल निर्भरता से बचने के लिए। ग्राउंडिंग तकनीकों में RAG, वेब सर्च इंटीग्रेशन और संदर्भ आवश्यकताएं शामिल हैं। एक ग्राउंडेड जवाब “अनुसार [स्रोत]” कहता है, बस तथ्यों की घोषणा करने के बजाय।

यह क्यों मायने रखता है

मूल आधार अभिन्नता के खिलाफ प्रमुख रक्षा है। एक अमूल आधार वाला मॉडल निश्चित रूप से तथ्य उत्पन्न करता है। एक मूल आधार वाला मॉडल आपको वास्तविक स्रोतों की ओर दिखाता है जिनकी जांच की जा सकती है।

गहन अध्ययन

ग्राउंडिंग एक अभ्यास है जिसमें एक मॉडल के आउटपुट को सत्यापन योग्य बाहरी जानकारी से जोड़ा जाता है, और यह इसलिए मौजूद है क्योंकि भाषा मॉडलों में एक मौलिक आर्किटेक्चर लिमिटेशन होती है: वे यह नहीं जानते कि वे क्या जानते हैं। एक मॉडल के ट्रेनिंग डेटा को अपने वेट्स में सांख्यिकीय पैटर्न के रूप में बेक किया जाता है, न कि एक रिट्रीवेबल तथ्यों के डेटाबेस के रूप में। यह नहीं जांच सकता कि एक विशिष्ट दावा अपने ट्रेनिंग सेट में है या एक तारीख को एक विश्वसनीय स्रोत के खिलाफ जांच सकता है। ग्राउंडिंग इसके लिए एक बरतन है जिसमें मॉडल को अनुमान लगाने के समय अधिकारिक डेटा के साथ एक्सेस दिया जाता है, ताकि यह उत्तर उपलब्ध साक्ष्य के आधार पर बना सके, न कि पैटर्न-मैच्ड रिकॉल पर।

प्रैक्टिस में RAG

आज उत्पादन में सबसे आम ग्राउंडिंग तकनीक रिट्रीवल-एग्जामिनेटेड जेनरेशन (RAG) है। मूल पैटर्न सीधा है: उपयोगकर्ता के प्रश्न को ले लो, इसका उपयोग एक ज्ञान बेस (आमतौर पर एक वेक्टर डेटाबेस जिसमें एम्बेडेड डॉक्यूमेंट चंक होते हैं) में खोज करें, सबसे संबंधित पैराग्राफ रिट्रीव करें, और उन्हें प्रश्न के साथ मॉडल के कंटेक्स्ट में शामिल करें। फिर मॉडल उन रिट्रीव किए गए पैराग्राफ के आधार पर एक उत्तर जनरेट करता है। गूगल के वर्टेक्स एआई, अमेज़ॅन बेड्रॉक और अधिकांश एंटरप्राइज़ एआई प्लेटफॉर्म RAG पाइपलाइन के रूप में प्रबंधित सेवाओं के रूप में पेश करते हैं। मुख्य अंतरण यह है कि आप मॉडल के कार्य को "ट्रेनिंग से तथ्यों को रिकॉल करें" से "प्रदान किए गए दस्तावेजों से एक उत्तर संश्लेषित करें" में बदल रहे हैं — एक कार्य जिसमें मॉडल बहुत अधिक विश्वसनीय होते हैं।

वेब सर्च ग्राउंडिंग

वेब सर्च ग्राउंडिंग एक अलग दृष्टिकोण अपनाता है। निजी ज्ञान बेस की खोज के बजाय, मॉडल लाइव वेब के साथ प्रश्न करता है और परिणामों को अपने उत्तर में शामिल करता है। पर्प्लेक्सिटी ने अपने पूरे उत्पाद को इस विचार के आसपास बनाया है। गूगल के जेमिनी मॉडल्स गूगल सर्च को सीधे एक्सेस कर सकते हैं। चैटजीपीटी की ब्राउज़िंग सुविधा इसी तरह काम करती है। RAG के ऊपर फ्रेशनेस का फायदा होता है — वेब सर्च ग्राउंडिंग कल घटिया घटनाओं के बारे में प्रश्नों के उत्तर दे सकता है, जबकि RAG प्रणाली अपने अंतिम इंडेक्स अपडेट के ताजगी के बराबर होता है। नुकसान यह है कि वेब में गलत जानकारी भी होती है, इसलिए आप एक त्रुटि के स्रोत को दूसरे के बदले ले रहे हैं।

संदर्भ आवश्यकताएं एक हल्के वजन वाले ग्राउंडिंग के रूप में काम करती हैं जो प्रॉम्प्ट स्तर पर काम करती हैं। जब आप मॉडल को कहते हैं "केवल उन दावों के बारे में बात करो जिन्हें आप प्रदान किए गए दस्तावेजों से जोड़ सकते हैं, और अपने स्रोतों को ऑनलाइन संदर्भित करें," तो आप उसे नए क्षमताओं के साथ नहीं दे रहे हैं — आप उसके व्यवहार को सत्यापन योग्य सामग्री के करीब रखने के लिए सीमित कर रहे हैं। यह व्यावहार में आश्चर्यजनक रूप से अच्छा काम करता है, विशेष रूप से क्लॉड या जीपीटी-4 जैसे क्षमताशाली मॉडलों के साथ। मॉडल अक्सर उत्तर देने से इनकार कर देता है या अनिश्चितता को विशेष रूप से चिह्नित करता है बजाय एक झू

ग्राउंडिंग

यह क्यों मायने रखता है

गहन अध्ययन

प्रैक्टिस में RAG

वेब सर्च ग्राउंडिंग

संबंधित अवधारणाएँ