擷取式摘要使用 TextRank(受 PageRank 啟發的圖形演算法)或基於 BERT 的句子評分等技術來辨識最重要的句子。摘要是原始句子的子集,這保證了事實準確性,但可能產生不連貫的文字。抽象式摘要使用序列到序列模型(T5、BART 或 LLM)來生成新文字,產出更流暢的摘要,但有幻覺風險——添加原文中沒有的資訊。
LLM 已經使摘要功能對於能放入上下文視窗的文件幾乎成為已解決的問題。「用 3 個要點摘要這篇文章」在零微調的情況下就能產出驚人的好結果。剩餘的挑戰:摘要超過上下文視窗的文件(需要分塊策略)、維持事實準確性(LLM 有時會用看似合理但捏造的細節「增強」摘要),以及精確控制輸出長度。
生產環境中常見的摘要模式:映射-歸約(將長文件分成塊、摘要每個塊、再摘要摘要)、層級式(摘要各節、再摘要各節摘要),以及滾動式(維護一個隨著新內容添加而更新的持續摘要)。對於會議逐字稿,帶有發言者歸屬的摘要(「Sarah 提出了 X,Pierre 提出了 Y 的疑慮」)比通用摘要更有用。