文本摘要：定义与含义 — AI 维基

自动生成保留关键信息的文本缩短版本。抽取式摘要选择并组合最重要的现有句子。生成式摘要生成捕捉含义的新句子——就像人类做摘要那样。现代LLM擅长生成式摘要，能对文档、文章和对话生成流畅准确的摘要。

为什么重要

信息过载是数字时代的核心挑战。摘要能帮上忙：将长报告浓缩为可执行的简报，从会议记录生成会议纪要，为研究论文创建摘要，以及为冗长文章生成TL;DR版本。这是LLM最直接有用的能力之一，也是最容易集成到现有工作流中的。

深度解析

抽取式摘要通过TextRank（一种受PageRank启发的图算法）或基于BERT的句子评分等技术识别最重要的句子。摘要是原始句子的子集，保证了事实准确性但可能产生生硬断裂的文本。生成式摘要使用序列到序列模型（T5、BART或LLM）生成新文本，产出更流畅的摘要但存在幻觉风险——添加原文中没有的信息。

LLM摘要

对于上下文窗口内的文档，LLM几乎将摘要变成了已解决的问题。“用3个要点总结这篇文章”无需微调就能产出令人惊讶的好结果。剩余挑战：对超过上下文窗口的文档进行摘要（需要分块策略），保持事实准确性（LLM有时会用看似合理但捏造的细节“增强”摘要），以及精确控制输出长度。

实用模式

生产中常见的摘要模式：map-reduce（将长文档拆分为块，对每块做摘要，再对摘要做摘要），分层式（对章节做摘要，再对章节摘要做摘要），以及滚动式（维护一个随新内容添加而更新的运行摘要）。对于会议记录，按发言人归属的摘要（“Sarah提出了X，Pierre提出了Y的担忧”）比通用摘要更有用。