抽取式QA(SQuAD范式):给定一篇文档和一个问题,识别出回答问题的精确文本片段。微调的BERT模型擅长这个——它们阅读文档,理解问题,然后高亮答案。这种方法快速、准确且可验证(答案始终是直接引用)。但它只能回答答案逐字出现在文档中的问题。
当前主流模式:(1)用户提出问题,(2)使用语义搜索从知识库检索相关文档,(3)将检索到的文档包含在LLM的上下文中,(4)LLM根据检索到的上下文生成答案。这将检索的精确性与生成的流畅性结合在一起。关键挑战是检索质量(找到正确的文档)和忠实性(生成准确反映源材料的答案)。
每种范式的QA准确性评估方式不同。抽取式QA使用精确匹配(EM)和F1分数与标准答案片段对比。生成式QA更难自动评估——任何答案都存在多种有效表述。RAGAS等框架在忠实性(答案是否与来源匹配?)、相关性(你是否检索到正确的文档?)和答案质量上评估基于RAG的QA。人工评估仍然是生成式QA的黄金标准。