Liquid AI的350M模型以混合架構超越1B+模型

Liquid AI發佈了LFM2.5-350M，這是一個3.5億參數的模型，通過放棄純Transformer架構採用混合方法，超越了兩倍大小的模型。該模型結合了10個Double-Gated Linear Input-Varying Systems (LIV)區塊和6個Grouped Query Attention區塊，實現32k上下文視窗，同時保持恆定記憶體使用，而不是困擾標準Transformer的二次方擴展。在28兆tokens上訓練——異常高的訓練-參數比——在IFEval指令跟隨基準測試中得分76.96。

這次發佈很重要，因為它直接挑戰了主導AI發展的「越大越好」擴展定律。當其他人都在追求數千億參數的前沿模型時，Liquid AI正在證明架構創新可以提供更好的智能密度。混合LIV方法解決了KV快取記憶體瓶頸，這使得大上下文視窗成本高昂，這可能改變我們對在記憶體和運算受限的邊緣部署AI的思考。

值得注意的是Liquid AI明確不聲稱的東西——他們坦率地說LFM2.5-350M在數學、複雜編碼或創意寫作方面不擅長。這種誠實的定位與典型的模型發佈炒作週期形成對比。該模型針對特定用例：工具調用、函數執行和結構化資料提取，其中指令跟隨比一般推理能力更重要。

對於構建生產AI應用的開發者來說，這代表了針對特定工作流程的昂貴大型模型的實用替代方案。如果你在做JSON提取、API調用或結構化資料處理，一個適合較小記憶體佔用同時處理長上下文的350M模型可以顯著降低部署成本。問題是這種混合架構方法是否會影響更大的模型設計，還是仍然是邊緣部署的小眾優化。

Liquid AI的350M模型以混合架構超越1B+模型

更多新聞