你现在可以完全不碰云端,就在桌面上的一组 Mac 集群上运行一个万亿参数的 AI 模型。LM Studio 表示,它与 Apple 合作,用其软件的预览版本,在四台彼此相连的 Mac Studio 上运行了 Kimi K2.6,也就是 Moonshot 那款约一万亿参数的开放权重模型,并配备安全远程访问。这次在 Apple WWDC 2026 前后展出的演示,标志着前沿规模模型的本地化、在地化推理已经走出多远。

这套方案倚仗 Apple 一直在悄然铺垫的两样东西。第一是内存,四台 Mac Studio 通过 Thunderbolt 5 连接,汇聚成约 1.5 TB 的统一内存,足以容纳一个万亿参数模型的权重,而这本来需要一整机架的数据中心 GPU。第二是一项新能力,即 macOS 中基于 Thunderbolt 5 的 RDMA,它让这些机器之间传输数据的速度快到足以表现得像一台机器。在这样的集群上,Kimi K2 的吞吐量据称落在每秒约 25 个 token,足以应付实际工作,而硬件成本约为 4 万美元,对个人而言是一大笔钱,相比同等的 GPU 服务器却又微不足道。

对 Apple 来说,这是一次定位之举。在 WWDC 2026 上,它把 Mac Studio 推介为一台严肃的本地 AI 工作站,并援引其最新芯片通过 LM Studio 运行模型时在 token 生成上的大幅提升。而对开放权重的世界而言,这意义更大,像 Kimi K2.6 这样前沿规模的模型之所以能附带开放权重发布,正是让你能在自己硬件上运行它的前提。大型实验室的封闭模型无法被下载到桌面上,开放模型却可以,而这一差别如今就是租用智能与拥有运行它的机器之间的差别。

其意义与 AI 各处都在上演的成本叙事相连。云端推理是按量计费的,账单随你用得多少而水涨船高,而本地运行的模型只有固定的前期成本,根本没有按 token 计费的表。对于注重隐私或大批量的工作,这笔账正开始倾向桌面一侧。诚实的提醒是,每秒 25 个 token 对单个用户没问题,但无法服务众多用户,4 万美元是一道真实的门槛,厂商的吞吐量说法也应以惯常的怀疑来看待。但方向难以忽视。前沿曾经只栖身于数据中心,而万亿参数如今真的能装进一组你能买来、也能拔掉插头的电脑里,虽然慢,却已成真。