Liquid AI LFM2.5-8B-A1B:裝置端MoE,1.5B啟用,M5 Max CPU上253 tok/s

Liquid AI發布了LFM2.5-8B-A1B,一個開放權重的Mixture-of-Experts模型,每個token僅啟用其8.3B總參數中的1.5B。對建構者重要的數字是裝置端吞吐量:M5 Max筆電CPU上253 tokens/秒,記憶體佔用低於6GB,行動端約30 tokens/秒,H100上18.5K tokens/秒(高並發下每天超過1.6B token)。這是部署經濟學的舉措——你支付1.5B啟用的推理成本,同時借助8.3B參數的知識池,在能裝進背包的硬體上。權重在HuggingFace上以LFM1.0授權提供base和post-trained檢查點,今天可在llama.cpp、MLX、vLLM和SGLang上執行。

架構是混合的,不是普通的MoE transformer。24層中,18層是double-gated LIV卷積塊,6層是grouped-query attention層,MoE routing疊加其上——conv-heavy設計是將啟用參數成本和記憶體佔用保持在足夠低以適合edge的原因。脈絡視窗從前代的32K翻倍到131,072;詞彙增長到128K token,為印地語、泰語、越南語、印尼語和阿拉伯語調優了壓縮增益。相對LFM2-8B-A1B的基準躍升很大:IFEval 79.44 → 91.84(儘管啟用參數少得多仍匹敵Gemma-4-26B)、MATH500 74.80 → 88.76、AA-Omniscience非幻覺率7.46 → 63.47、Tau² Telecom 13.60 → 88.07。誠實的限制由Liquid聲明:小的啟用參數數量限制了知識容量,所以不適合無檢索增強的重型編程或知識密集型工作,且是text-only——無視覺或音訊。

生態系統解讀:MoE-on-edge現在是一個獨立於dense small模型的真實類別。Qwen、Gemma和Phi在dense sub-10B競爭;LFM2.5-8B-A1B的賭注是sparse啟用在相同推理成本下給你更高的品質上限,這正是on-device的正確tradeoff,其中記憶體頻寬而非compute是約束。1.5B啟用的數字是讓它能以可用速度在手機上執行的原因——dense 8.3B模型做不到。對agent stack,一個帶tool calling和128K脈絡的裝置端模型改變了無需雲往返就能執行的架構:本地agent讀取長文檔、調用工具並推理,雲僅保留給模型自己標記為超出其深度的知識密集型調用(這就是非幻覺躍升到63.47真正測量的——模型知道何時不知道)。

如果你週一早上交付edge或裝置端AI:253-tok/s-筆電CPU和~30-tok/s-行動端的數字是用來對你自己目標硬體benchmark的,LFM1.0授權是假設商業用途前要讀的東西。如果你建構agent基礎設施:將其與RAG層配對用於它標記為超出深度的知識任務,你就有了一個僅在必要時才接觸雲的local-first agent。結構性新聞是sparse on-device在品質-每-啟用-param前沿上擊敗了dense on-device——關注Qwen和Gemma是否會跟進MoE edge變體。

Liquid AI LFM2.5-8B-A1B:裝置端MoE,1.5B啟用,M5 Max CPU上253 tok/s

更多新聞