Question Answering（問答系統）：定義與含義 — AI 維基

一種回答以自然語言提出的問題的系統。擷取式 QA 在給定文件中找到答案段落（「根據第三段，答案是……」）。生成式 QA 從一個或多個來源綜合出答案。開放領域 QA 在沒有特定文件的情況下回答任何問題。基於 RAG 的 QA 檢索相關文件並從中生成答案。

為什麼重要

問答是 AI 助手的基本互動模式。每個聊天機器人、每個企業知識庫、每個客服機器人本質上都是 QA 系統。理解不同的 QA 範式（擷取式、生成式、檢索增強式）可以幫助你為應用選擇正確的架構，並對準確度設定合理的期望。

深度解析

擷取式 QA（SQuAD 範式）：給定一篇文件和一個問題，辨識出回答問題的確切文字段落。微調的 BERT 模型擅長此任務——它們閱讀文件、理解問題，並標記出答案。這種方法快速、準確且可驗證（答案始終是直接引用）。但它只能回答答案逐字出現在文件中的問題。

基於 RAG 的 QA

目前主流的現代模式：（1）使用者提出問題，（2）使用語義搜尋從知識庫檢索相關文件，（3）將檢索到的文件包含在 LLM 的上下文中，（4）LLM 根據檢索到的上下文生成答案。這結合了檢索的精確性和生成的流暢性。關鍵挑戰是檢索品質（找到正確的文件）和忠實度（生成準確反映源材料的答案）。

評估

QA 準確度的衡量方式因範式而異。擷取式 QA 使用精確匹配（EM）和 F1 分數與標準答案段落比較。生成式 QA 更難自動評估——任何答案都存在多種有效的表述方式。RAGAS 及類似框架從忠實度（答案是否與來源一致？）、相關性（是否檢索到正確的文件？）和答案品質等方面評估基於 RAG 的 QA。人工評估仍然是生成式 QA 的黃金標準。

Question Answering

為什麼重要

深度解析

基於 RAG 的 QA

評估

相關概念