滑動窗口注意力:每個 token 只關注固定窗口內的 token(例如 4096 個 token)。來自早期 token 的資訊透過層傳播——第 1 層看到 4096 個 token,第 2 層有效地看到 8192 個(兩個窗口的量),到最後一層時,來自完整序列的資訊已有機會傳播。Mistral-7B 在其 32 層中使用 4096 token 的滑動窗口。
Longformer 結合了滑動窗口(局部)注意力和對選定 token(如 [CLS] 或使用者定義的位置)的全域注意力。BigBird 在局部和全域模式之上增加了隨機注意力連接。這些混合方法讓模型以次二次方的成本處理 4K–16K 個 token,同時透過全域位置維持連接遠處 token 的能力。
稀疏注意力在許多任務上表現良好,但在需要精確長程依賴的任務上可能會退化——引用長文件開頭的特定事實、在長對話中維持一致性,或遵循跨越許多 token 的複雜指令。使用 Flash Attention 的密集注意力(完整二次方)在這些情況下仍然更穩健,這就是為什麼大多數前沿模型仍然使用密集注意力,並依靠 Flash Attention 而非稀疏性來提高效率。