Extractive QA (SQuAD paradigm): एक दस्तावेज़ और एक प्रश्न दिया गया है, टेक्स्ट के उस सटीक span की पहचान करें जो प्रश्न का उत्तर देता है। Fine-tuned BERT मॉडल इसमें उत्कृष्ट हैं — वे दस्तावेज़ पढ़ते हैं, प्रश्न समझते हैं, और उत्तर को highlight करते हैं। यह तेज, सटीक और सत्यापन योग्य है (उत्तर हमेशा एक सीधा उद्धरण होता है)। लेकिन यह केवल उन प्रश्नों का उत्तर दे सकता है जिनके उत्तर दस्तावेज़ में शब्दशः दिखाई देते हैं।
प्रमुख आधुनिक पैटर्न: (1) उपयोगकर्ता प्रश्न पूछता है, (2) semantic search का उपयोग करके knowledge base से प्रासंगिक दस्तावेज़ पुनर्प्राप्त करें, (3) पुनर्प्राप्त दस्तावेज़ों को LLM के context में शामिल करें, (4) LLM पुनर्प्राप्त संदर्भ के आधार पर उत्तर उत्पन्न करता है। यह retrieval की सटीकता को generation की प्रवाहपूर्णता के साथ जोड़ता है। मुख्य चुनौतियाँ हैं retrieval गुणवत्ता (सही दस्तावेज़ खोजना) और विश्वसनीयता (ऐसे उत्तर उत्पन्न करना जो स्रोत सामग्री को सटीक रूप से दर्शाते हैं)।
QA सटीकता को प्रत्येक paradigm के लिए अलग-अलग मापा जाता है। Extractive QA ground-truth उत्तर spans के विरुद्ध exact match (EM) और F1 score का उपयोग करता है। Generative QA का स्वचालित रूप से मूल्यांकन करना कठिन है — किसी भी उत्तर के लिए कई वैध शब्दांकन मौजूद हैं। RAGAS और इसी तरह के frameworks RAG-आधारित QA का faithfulness (क्या उत्तर स्रोत से मेल खाता है?), relevance (क्या आपने सही दस्तावेज़ पुनर्प्राप्त किए?), और उत्तर गुणवत्ता पर मूल्यांकन करते हैं। Generative QA के लिए मानव मूल्यांकन अभी भी gold standard बना हुआ है।