擷取式 QA(SQuAD 範式):給定一篇文件和一個問題,辨識出回答問題的確切文字段落。微調的 BERT 模型擅長此任務——它們閱讀文件、理解問題,並標記出答案。這種方法快速、準確且可驗證(答案始終是直接引用)。但它只能回答答案逐字出現在文件中的問題。
目前主流的現代模式:(1)使用者提出問題,(2)使用語義搜尋從知識庫檢索相關文件,(3)將檢索到的文件包含在 LLM 的上下文中,(4)LLM 根據檢索到的上下文生成答案。這結合了檢索的精確性和生成的流暢性。關鍵挑戰是檢索品質(找到正確的文件)和忠實度(生成準確反映源材料的答案)。
QA 準確度的衡量方式因範式而異。擷取式 QA 使用精確匹配(EM)和 F1 分數與標準答案段落比較。生成式 QA 更難自動評估——任何答案都存在多種有效的表述方式。RAGAS 及類似框架從忠實度(答案是否與來源一致?)、相關性(是否檢索到正確的文件?)和答案品質等方面評估基於 RAG 的 QA。人工評估仍然是生成式 QA 的黃金標準。