稀疏注意力：定義與含義 — AI 維基

只處理 token 配對子集而非完整 N×N 注意力矩陣的注意力機制。滑動窗口注意力只關注附近的 token（在固定窗口內）。稀疏模式（如 Longformer 的局部+全域注意力組合）讓特定 token 關注所有內容，而大多數 token 只在局部關注。這些方法降低了長序列注意力的二次方成本。

為什麼重要

稀疏注意力是 Mistral、Mixtral 和其他高效模型處理長序列而不承擔密集注意力全部成本的方式。它是「關注所有內容」（昂貴但徹底）和「不關注遠處的任何內容」（便宜但有限）之間的實際折衷。理解稀疏注意力有助於你評估關於上下文長度的聲明，並預測品質退化可能發生在哪裡。

深度解析

滑動窗口注意力：每個 token 只關注固定窗口內的 token（例如 4096 個 token）。來自早期 token 的資訊透過層傳播——第 1 層看到 4096 個 token，第 2 層有效地看到 8192 個（兩個窗口的量），到最後一層時，來自完整序列的資訊已有機會傳播。Mistral-7B 在其 32 層中使用 4096 token 的滑動窗口。

混合模式

Longformer 結合了滑動窗口（局部）注意力和對選定 token（如 [CLS] 或使用者定義的位置）的全域注意力。BigBird 在局部和全域模式之上增加了隨機注意力連接。這些混合方法讓模型以次二次方的成本處理 4K–16K 個 token，同時透過全域位置維持連接遠處 token 的能力。

品質權衡

稀疏注意力在許多任務上表現良好，但在需要精確長程依賴的任務上可能會退化——引用長文件開頭的特定事實、在長對話中維持一致性，或遵循跨越許多 token 的複雜指令。使用 Flash Attention 的密集注意力（完整二次方）在這些情況下仍然更穩健，這就是為什麼大多數前沿模型仍然使用密集注意力，並依靠 Flash Attention 而非稀疏性來提高效率。

稀疏注意力

為什麼重要

深度解析

混合模式

品質權衡

相關概念