Qwen發布FlashQLA——基於TileLang的線性注意力核心函式庫,在Hopper上比Triton FLA快2-3倍

Qwen團隊週二以MIT授權開源FlashQLA,一個針對Qwen3.5和Qwen3.6模型家族所採用的Gated Delta Network(GDN)線性注意力機制做高效能最佳化的核心函式庫。頭條基準:在Nvidia H200上,相對現有Triton實作的Flash Linear Attention(FLA)函式庫,前向傳播加速2到3倍、反向傳播加速2倍,橫跨與Qwen張量平行配置匹配的頭維度(TP1到TP8、hv從64到8)。倉庫位址github.com/QwenLM/FlashQLA。真正有意思的是FlashQLA選擇了什麼作為建構基礎:不是Triton,而是TileLang——一個相對較新的編譯器框架,它暴露了Triton無法完全表達的Hopper專屬調度原語。

架構脈絡很重要。線性注意力把標準softmax注意力的O(n²)複雜度替換為O(n),當序列長度突破10萬token時,這變成承重的。GDN是一種「閘控」變體,它對歷史上下文施加一個指數衰減閘——這種形式允許核心級高效實作,但要真正兌現理論效率,就必須仔細調度記憶體搬運、Tensor Core運算和CUDA Core計算。Qwen3.5/3.6使用混合設計:GDN層與標準全注意力層交替,在最需要的地方獲得全注意力的表達能力,在其他地方獲得線性注意力的高效。FlashQLA專門最佳化這一堆疊的線性注意力一半——意味著收益與混合架構相乘,不只是純線性注意力模型。

Triton-vs-TileLang這一維度是更宏觀的訊號。Triton(OpenAI推出的基於Python的GPU程式設計語言)讓核心撰寫大眾化——大多數生產級ML核心,包括FlashAttention的參考實作,都依賴它。但Triton的抽象瞄準的是通用CUDA程式設計模型,無法完全暴露Hopper的專屬特性:warpgroup級Tensor Core運算、非同步資料管線,以及讓你把核心拆到128執行緒warpgroup分配專門角色(一個搬資料、一個跑Tensor Core、一個跑CUDA core,全部並行重疊)的warp專門化。FlashQLA用TileLang的warp專門化核心原語手工編排這種重疊。結果是一個更脆弱(專屬Hopper、需要SM90+、CUDA 12.8+、PyTorch 2.8+)但實質上更快的核心——比Triton能產出的更快。我們回到了一個狀態:嚴肅的核心效能需要手工調校、面向特定硬體的實作——Triton是個漂亮的抽象,但在最新晶片上丟了吞吐。

對builder來說,有三點收穫。第一,如果你在H100/H200上規模化跑Qwen3.5/3.6推論,把FLA換成FlashQLA可能是免費的2倍解碼吞吐——但請在你自己具體的部署上驗證,因為這些基準是單核心延遲,不是端到端serving。第二,Triton-vs-TileLang的分岔預示著一種會持續擴大的可移植性稅:可移植核心哪兒都能跑但更慢,硬體專屬核心要求按世代(SM89 Ada、SM90 Hopper、SM100 Blackwell)維護獨立程式碼路徑。TileLang、CUTLASS這類框架將越來越佔據高效能天花板,而Triton守住開發者友善的下限。第三,這是關於Qwen基礎設施團隊的一個訊號——把一份手工調校的核心函式庫與模型權重一起發布,是西方開源團隊較慢才做的那種垂直整合最佳化。DeepSeek-V3發布時帶著客製CUDA實作;Qwen3.x現在帶著客製核心函式庫。「開放權重」的標準正在悄悄演變成「開放權重外加你真正高效服務它們所需的核心」。這是開源AI交付樣貌的一次實質性升級。

Qwen發布FlashQLA——基於TileLang的線性注意力核心函式庫,在Hopper上比Triton FLA快2-3倍

更多新聞