抽取式摘要通过TextRank(一种受PageRank启发的图算法)或基于BERT的句子评分等技术识别最重要的句子。摘要是原始句子的子集,保证了事实准确性但可能产生生硬断裂的文本。生成式摘要使用序列到序列模型(T5、BART或LLM)生成新文本,产出更流畅的摘要但存在幻觉风险——添加原文中没有的信息。
对于上下文窗口内的文档,LLM几乎将摘要变成了已解决的问题。“用3个要点总结这篇文章”无需微调就能产出令人惊讶的好结果。剩余挑战:对超过上下文窗口的文档进行摘要(需要分块策略),保持事实准确性(LLM有时会用看似合理但捏造的细节“增强”摘要),以及精确控制输出长度。
生产中常见的摘要模式:map-reduce(将长文档拆分为块,对每块做摘要,再对摘要做摘要),分层式(对章节做摘要,再对章节摘要做摘要),以及滚动式(维护一个随新内容添加而更新的运行摘要)。对于会议记录,按发言人归属的摘要(“Sarah提出了X,Pierre提出了Y的担忧”)比通用摘要更有用。