Zubnet AI學習Wiki › 稀疏注意力
模型

稀疏注意力

局部注意力、滑動窗口注意力
只處理 token 配對子集而非完整 N×N 注意力矩陣的注意力機制。滑動窗口注意力只關注附近的 token(在固定窗口內)。稀疏模式(如 Longformer 的局部+全域注意力組合)讓特定 token 關注所有內容,而大多數 token 只在局部關注。這些方法降低了長序列注意力的二次方成本。

為什麼重要

稀疏注意力是 Mistral、Mixtral 和其他高效模型處理長序列而不承擔密集注意力全部成本的方式。它是「關注所有內容」(昂貴但徹底)和「不關注遠處的任何內容」(便宜但有限)之間的實際折衷。理解稀疏注意力有助於你評估關於上下文長度的聲明,並預測品質退化可能發生在哪裡。

深度解析

滑動窗口注意力:每個 token 只關注固定窗口內的 token(例如 4096 個 token)。來自早期 token 的資訊透過層傳播——第 1 層看到 4096 個 token,第 2 層有效地看到 8192 個(兩個窗口的量),到最後一層時,來自完整序列的資訊已有機會傳播。Mistral-7B 在其 32 層中使用 4096 token 的滑動窗口。

混合模式

Longformer 結合了滑動窗口(局部)注意力和對選定 token(如 [CLS] 或使用者定義的位置)的全域注意力。BigBird 在局部和全域模式之上增加了隨機注意力連接。這些混合方法讓模型以次二次方的成本處理 4K–16K 個 token,同時透過全域位置維持連接遠處 token 的能力。

品質權衡

稀疏注意力在許多任務上表現良好,但在需要精確長程依賴的任務上可能會退化——引用長文件開頭的特定事實、在長對話中維持一致性,或遵循跨越許多 token 的複雜指令。使用 Flash Attention 的密集注意力(完整二次方)在這些情況下仍然更穩健,這就是為什麼大多數前沿模型仍然使用密集注意力,並依靠 Flash Attention 而非稀疏性來提高效率。

相關概念

← 所有術語
← 神經網絡 稀疏自編碼器 →