问答系统：定义与含义 — AI 维基

一种回答自然语言提问的系统。抽取式QA在给定文档中找到答案片段（“根据第3段，答案是……”）。生成式QA从一个或多个来源综合生成答案。开放域QA在没有特定文档的情况下回答任何问题。基于RAG的QA检索相关文档并从中生成答案。

为什么重要

问答是AI助手的基本交互模式。每个聊天机器人、每个企业知识库、每个客服机器人本质上都是一个QA系统。了解不同的QA范式（抽取式、生成式、检索增强式）有助于你为应用选择正确的架构，并对准确性设定合理的期望。

深度解析

抽取式QA（SQuAD范式）：给定一篇文档和一个问题，识别出回答问题的精确文本片段。微调的BERT模型擅长这个——它们阅读文档，理解问题，然后高亮答案。这种方法快速、准确且可验证（答案始终是直接引用）。但它只能回答答案逐字出现在文档中的问题。

基于RAG的QA

当前主流模式：(1)用户提出问题，(2)使用语义搜索从知识库检索相关文档，(3)将检索到的文档包含在LLM的上下文中，(4)LLM根据检索到的上下文生成答案。这将检索的精确性与生成的流畅性结合在一起。关键挑战是检索质量（找到正确的文档）和忠实性（生成准确反映源材料的答案）。

评估

每种范式的QA准确性评估方式不同。抽取式QA使用精确匹配（EM）和F1分数与标准答案片段对比。生成式QA更难自动评估——任何答案都存在多种有效表述。RAGAS等框架在忠实性（答案是否与来源匹配？）、相关性（你是否检索到正确的文档？）和答案质量上评估基于RAG的QA。人工评估仍然是生成式QA的黄金标准。