MIT 分拆公司正在探索受生物神经回路启发的、从根本上不同的神经网络架构。他们的 Liquid Foundation Models 使用连续时间动力学而非固定权重的 Transformer,有望实现更高的效率和适应性。
Liquid AI 起源于麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究,特别是 Ramin Hasani、Mathias Lechner 和 Daniela Rus 的工作。Hasani 和 Lechner 曾研究秀丽隐杆线虫的神经系统——这种仅有 302 个神经元的微小圆虫——并发现支配这些生物神经回路的数学方程可以被改编为一种新型的人工神经网络。与标准网络在训练后连接权重固定不同,这些“液态”网络使用连续时间微分方程,使参数能根据输入动态适应。公司于 2023 年正式成立,并迅速以 20 亿美元以上的估值筹集了超过 2.5 亿美元资金,获得 AMD Ventures 等投资者支持,这些投资者看到了一种从根本上突破 Transformer 架构范式的潜力。
Liquid AI 的核心产品线——液态基础模型(LFMs)——推出了三种规模:LFM-1B、LFM-3B 和 LFM-40B。这些模型在架构上与众不同的地方在于,它们既不是 Transformer,也不是 Mamba 意义上的状态空间模型。LFMs 采用混合方法,结合结构化状态空间层与类似注意力的机制,但其底层数学原理根植于生物研究中的连续时间动态。实际上,这意味着 LFMs 比标准 Transformer 更高效地处理非常长的序列——它们的内存占用不会随序列长度呈二次方增长。特别是 LFM-1B 模型,在标准基准测试中超越了多个同规模的 Transformer 模型,表明架构差异带来了实际能力提升,而不仅仅是理论上的优雅。
Liquid AI 最具说服力的主张之一是边缘设备上的效率。由于液态网络可以用比 Transformer 更少的参数表示复杂动态,它们天然适合部署在计算能力有限的设备上——手机、机器人、物联网传感器、自动驾驶汽车。公司明确表示针对这些应用场景,将自己定位为“不是另一个聊天机器人公司,而是为无处不在的 AI 提供架构的供应商”。这与大多数 AI 实验室的云优先策略截然不同。如果你的模型可以在手机的神经处理单元上运行,无需频繁调用服务器,你就能解锁云依赖 AI 无法实现的应用:实时机器人、离线处理、设备端隐私保护推理。Liquid AI 与高通等硬件厂商合作,优化模型以适配特定芯片架构,这一举措表明其对边缘部署故事的重视。
Liquid AI 的存在是对架构多样性的押注——即尽管 Transformer 占据主导地位,但它并非神经网络设计的最终答案。随着 Transformer 的局限性逐渐清晰,这一论点获得了更多可信度:注意力计算的二次方成本、处理极长序列的困难、推理时的巨大能耗。状态空间模型社区(如 Mamba、RWKV 等)已证明存在具有竞争力的替代方案;Liquid AI 进一步主张,受生物学启发的动态机制在时间推理和适应性行为方面具有优势,甚至超越了状态空间模型(SSMs)。尽管 LFM-40B 在与同规模最佳 Transformer 模型的竞争中表现接近但尚未主导,但其理论基础足够严谨,使 AI 研究界对其工作持严肃态度。
Liquid AI 最明显的风险是 Transformer 生态系统根深蒂固。软件栈(PyTorch、CUDA 内核、推理服务器)几乎完全优化了 Transformer 架构。每家主要云服务商都投入数十亿美元构建针对注意力模型的基础设施。转向根本不同的架构意味着重建工具链、重新培训工程师,并说服客户效率提升足以抵消转型成本。Liquid AI 部分解决了这一问题,通过提供即插即用的 API 兼容性——从用户角度看,调用 LFM 与调用其他模型完全一致。但更深层的挑战是,他们能否在企业采用的关键规模上证明持续的明显优势。凭借 2.5 亿美元融资和强大的学术背景,他们比大多数架构挑战者拥有更长的跑道。未来一年将决定液态神经网络是否能成为生产 AI 的真正力量,还是仅成为该领域历史上最引人入胜的注脚之一。