Liquid AI发布了LFM2.5-8B-A1B,一个开放权重的Mixture-of-Experts模型,每个token仅激活其8.3B总参数中的1.5B。对构建者重要的数字是设备端吞吐量:M5 Max笔记本CPU上253 tokens/秒,内存占用低于6GB,移动端约30 tokens/秒,H100上18.5K tokens/秒(高并发下每天超过1.6B token)。这是部署经济学的举措——你支付1.5B激活的推理成本,同时借助8.3B参数的知识池,在能装进背包的硬件上。权重在HuggingFace上以LFM1.0许可证提供base和post-trained检查点,今天可在llama.cpp、MLX、vLLM和SGLang上运行。

架构是混合的,不是普通的MoE transformer。24层中,18层是double-gated LIV卷积块,6层是grouped-query attention层,MoE routing叠加其上——conv-heavy设计是将激活参数成本和内存占用保持在足够低以适合edge的原因。上下文窗口从前代的32K翻倍到131,072;词汇增长到128K token,为印地语、泰语、越南语、印尼语和阿拉伯语调优了压缩增益。相对LFM2-8B-A1B的基准跃升很大:IFEval 79.44 → 91.84(尽管激活参数少得多仍匹敌Gemma-4-26B)、MATH500 74.80 → 88.76、AA-Omniscience非幻觉率7.46 → 63.47、Tau² Telecom 13.60 → 88.07。诚实的限制由Liquid声明:小的激活参数数量限制了知识容量,所以不适合无检索增强的重型编程或知识密集型工作,且是text-only——无视觉或音频。

生态系统解读:MoE-on-edge现在是一个独立于dense small模型的真实类别。Qwen、Gemma和Phi在dense sub-10B竞争;LFM2.5-8B-A1B的赌注是sparse激活在相同推理成本下给你更高的质量上限,这正是on-device的正确tradeoff,其中内存带宽而非compute是约束。1.5B激活的数字是让它能以可用速度在手机上运行的原因——dense 8.3B模型做不到。对agent stack,一个带tool calling和128K上下文的设备端模型改变了无需云往返就能运行的架构:本地agent读取长文档、调用工具并推理,云仅保留给模型自己标记为超出其深度的知识密集型调用(这就是非幻觉跃升到63.47真正测量的——模型知道何时不知道)。

如果你周一早上交付edge或设备端AI:253-tok/s-笔记本CPU和~30-tok/s-移动端的数字是用来对你自己目标硬件benchmark的,LFM1.0许可证是假设商业用途前要读的东西。如果你构建agent基础设施:将其与RAG层配对用于它标记为超出深度的知识任务,你就有了一个仅在必要时才接触云的local-first agent。结构性新闻是sparse on-device在质量-每-激活-param前沿上击败了dense on-device——关注Qwen和Gemma是否会跟进MoE edge变体。