LM Studio 与 Apple 在四台 Mac Studio 上运行万亿参数模型, Zubnet AI 新闻

你现在可以完全不碰云端，就在桌面上的一组 Mac 集群上运行一个万亿参数的 AI 模型。LM Studio 表示，它与 Apple 合作，用其软件的预览版本，在四台彼此相连的 Mac Studio 上运行了 Kimi K2.6，也就是 Moonshot 那款约一万亿参数的开放权重模型，并配备安全远程访问。这次在 Apple WWDC 2026 前后展出的演示，标志着前沿规模模型的本地化、在地化推理已经走出多远。

这套方案倚仗 Apple 一直在悄然铺垫的两样东西。第一是内存，四台 Mac Studio 通过 Thunderbolt 5 连接，汇聚成约 1.5 TB 的统一内存，足以容纳一个万亿参数模型的权重，而这本来需要一整机架的数据中心 GPU。第二是一项新能力，即 macOS 中基于 Thunderbolt 5 的 RDMA，它让这些机器之间传输数据的速度快到足以表现得像一台机器。在这样的集群上，Kimi K2 的吞吐量据称落在每秒约 25 个 token，足以应付实际工作，而硬件成本约为 4 万美元，对个人而言是一大笔钱，相比同等的 GPU 服务器却又微不足道。

对 Apple 来说，这是一次定位之举。在 WWDC 2026 上，它把 Mac Studio 推介为一台严肃的本地 AI 工作站，并援引其最新芯片通过 LM Studio 运行模型时在 token 生成上的大幅提升。而对开放权重的世界而言，这意义更大，像 Kimi K2.6 这样前沿规模的模型之所以能附带开放权重发布，正是让你能在自己硬件上运行它的前提。大型实验室的封闭模型无法被下载到桌面上，开放模型却可以，而这一差别如今就是租用智能与拥有运行它的机器之间的差别。

其意义与 AI 各处都在上演的成本叙事相连。云端推理是按量计费的，账单随你用得多少而水涨船高，而本地运行的模型只有固定的前期成本，根本没有按 token 计费的表。对于注重隐私或大批量的工作，这笔账正开始倾向桌面一侧。诚实的提醒是，每秒 25 个 token 对单个用户没问题，但无法服务众多用户，4 万美元是一道真实的门槛，厂商的吞吐量说法也应以惯常的怀疑来看待。但方向难以忽视。前沿曾经只栖身于数据中心，而万亿参数如今真的能装进一组你能买来、也能拔掉插头的电脑里，虽然慢，却已成真。

LM Studio 与 Apple 在四台 Mac Studio 上运行万亿参数模型

更多新闻