Google研究人員發現,應用極座標變換——高中教授的基礎三角學——可以將NVIDIA H100上的KV快取記憶體使用量減少6倍,同時提供8倍效能提升。該技術利用極座標的數學性質來壓縮transformer模型在推理期間用於儲存注意力權重的key-value快取,大幅削減記憶體需求而不犧牲準確性。
這很重要,因為KV快取是生產環境中large language models的主要記憶體瓶頸。每個生成的token都需要儲存先前的注意力狀態,隨著上下文視窗達到128K+ tokens,快取記憶體呈指數級爆炸。6倍的減少意味著你可以在相同硬體上為6倍更多使用者提供服務,或執行因記憶體約束而此前不可能的模型。對於燒錢運行H100叢集的雲端供應商,這種最佳化意味著大量成本節省。
其他來源缺乏額外報導很說明問題——要麼這太新以至於驗證待定,要麼技術細節足夠複雜,少有媒體具備AI基礎架構專業知識來適當評估這些聲明。RSS摘要對「三角學課上專心聽講」的隨意提及低估了看似精密的數學工程,暗示這個突破可能比最初看起來更容易實施。
開發者應該關注Google是否會開源這個最佳化或將其整合到他們的服務基礎架構中。如果該技術如宣傳的那樣有效,預期整個行業的快速採用——任何提供6倍記憶體節省的最佳化都將成為競爭性AI服務的基本要求。問題不是這是否會被採用,而是競爭對手多快會逆向工程並實施類似方法。
