Zubnet AI學習Wiki › Liquid AI
公司

Liquid AI

別名:Liquid 基礎模型、液態神經網絡
麻省理工學院衍生公司正在探索受生物神經電路啟發的、與傳統截然不同的神經網絡架構。他們的 Liquid Foundation Models 採用連續時間動力學—而非固定權重的Transformer架構—有望在效率與適應性方面取得更好的表現。

為什麼重要

Liquid AI代表了對「Transformer是唯一重要的架構」這個假設最嚴肅的資金支持挑戰。他們透過建立基於生物啟發連續時間動力學的生產等級基礎模型,正在測試AI產業對注意力機制的全面押注是否過早。即使LFMs無法徹底取代Transformer,其在邊緣部署與長序列處理上的效率優勢,仍可能在機器人、行動AI與嵌入式系統等市場中開闢關鍵利基——這些市場裡運行一個700億參數的Transformer根本不可行。

深度解析

液態AI源自麻省理工學院電腦科學與人工智慧實驗室(CSAIL)的研究,特別是Ramin Hasani、Mathias Lechner與Daniela Rus的成果。Hasani與Lechner曾研究C. elegans(一種擁有精確302個神經元的微小線蟲)的神經系統,發現這些生物神經電路所遵循的數學方程式可被改編成一種新型的人工神經網絡。與標準網絡在訓練後連接權重固定不同,這些「液態」網絡使用連續時間微分方程,讓參數能根據輸入動態適應。公司於2023年正式成立,並迅速以20億美元以上的估值籌集超過2.5億美元資金,獲得AMD Ventures及其他看到這種與Transformer架構根本不同的架構潛力的投資者支持。

液態基礎模型:不同的賭注

液態AI的核心產品線——液態基礎模型(LFMs)——推出時有三種規模:LFM-1B、LFM-3B與LFM-40B。使這些模型在架構上獨特的是,它們既不是Transformer,也不是Mamba意義下的狀態空間模型。LFMs採用混合方法,結合結構化狀態空間層與類似注意力的機制,但其底層數學則源自生物研究中的連續時間動力學。實際上,這意味著LFMs在處理非常長的序列時比標準Transformer更有效率——其記憶體佔用量不會隨著序列長度呈二次方增長。特別是LFM-1B模型,在標準基準測試中表現優於同規模的多個Transformer模型,顯示架構差異確實帶來了實質的能力提升,而不僅僅是理論上的優美。

邊緣AI與效率論點

液態AI最具說服力的主張之一是在邊緣設備上的效率。由於液態網絡能以比Transformer更少的參數表示複雜動態,因此天生適合部署在計算資源有限的設備上——手機、機器人、IoT感測器、自動駕駛車。公司明確針對這些應用場景,將自己定位為非另一家聊天機器人公司,而是提供可在任何地方運行的AI架構供應商。這與大多數AI實驗室的雲端優先策略根本不同。如果你的模型能在手機的神經處理單元上進行有意義的運算,而無需持續呼叫伺服器,就能解鎖雲端依賴型AI無法實現的應用:即時機器人、離線處理、設備端的隱私保護推論。液態AI與Qualcomm及其他硬體供應商合作,優化其模型以適應特定晶片架構,這項舉動顯示了他們對邊緣部署故事的認真態度。

架構多樣性假說

液態AI的存在是對架構多樣性的賭注——即認為儘管Transformer佔據主導地位,但它們並非神經網絡設計的最終答案。隨著Transformer的限制變得更清楚,這假說已獲得可信度:二次方注意力成本、處理非常長序列的困難、推論過程中的巨大能耗。狀態空間模型社群(Mamba、RWKV等)已證明存在競爭對手;液態AI進一步主張生物啟發動力學提供了連SSMs都未觸及的優勢,特別是在時間推理與適應行為方面。無論這是否在前沿規模上成立仍有待驗證——LFM-40B在與同規模最佳Transformer模型競爭時表現競爭但非主導——但理論基礎足夠嚴謹,使AI研究社群對這項工作認真看待。

挑戰與懷疑

液態AI最明顯的風險是Transformer生態系統已深根蒂固。軟體堆疊(PyTorch、CUDA核心、推論伺服器)幾乎完全針對Transformer架構進行優化。每家主要雲端供應商都投入數十億美元建立針對注意力模型的基礎設施。切換至根本不同的架構意味著需要重建工具、重新培訓工程師,並說服客戶效率提升足以彌補轉換成本。液態AI部分解決了這一點,提供即插即用的API相容性——從用戶角度看,呼叫LFM與呼叫其他模型完全相同。但更深層的挑戰是他們能否在企業採用的重要規模上展示明確且持續的優勢。擁有2.5億美元資金與強大的學術資歷,他們比大多數架構挑戰者擁有更長的跑道。未來一年將決定液態神經網絡是否成為生產AI中的真正力量,或僅成為該領域歷史中最富學術趣味的註腳之一。

相關概念

← 所有術語
← Leonardo.ai LoRA →
ESC