Apple 正集中押注于在你设备上而非数据中心里运行的人工智能, 其 WWDC 发布会上的两条线索显示出这一押注有多么刻意。其一是名为 Core AI 的全新开发者框架。其二是关于下一代 Siri 究竟如何使用 Google 的 Gemini 的一个较为低调的细节, 两者共同描绘出一家公司, 它试图拥有自家硬件上运行的模型, 而借用对手的模型只是为了训练自己的。

Core AI 是 Core ML 的继任者, 后者是 Apple 长期以来的端侧机器学习框架, 而 Core AI 则是为生成式时代打造的。它让应用能够完全在端侧运行大语言模型和生成式 AI, 无需服务器依赖, 也没有 token 成本, 通过一套内存安全的 Swift API 同时支持自定义的 PyTorch 模型和预先优化好的开源模型。Apple 表示它覆盖范围很广, 从紧凑的 30亿参数视觉模型到高达 700亿参数的大型推理模型, 配备提前编译以实现即时加载, 以及 KV-cache 管理, 自回归解码和专为注意力打造的 Metal 4 内核等生成式 AI 优化。它可在 iPhone, iPad, Mac 和 Apple Vision Pro 上运行, 现已在面向开发者的 Xcode 27 测试版中发布, 并将于秋季进入正式版本。

关于 Siri 的那个细节更为微妙, 在某种程度上也更能说明问题。根据一份对主题演讲未明说内容的分析, Apple 把 Gemini 当作老师而非引擎。Gemini 生成训练数据和学习信号, 这些被蒸馏进 Apple 自家的第三代 Foundation Models, 这一步在开发期间一次性完成, 而真正回应你请求的模型则运行在设备上。只有在云端才会调用 Gemini 作为后备方案, 用于那一小部分超出端侧模型能力的请求。

这个区别正是关键所在。训练期的老师是一种一次性且可逆的依赖, 这种依赖 Apple 日后可以替换或逐步摆脱, 而运行期的引擎则会成为结构性的锁定, 触及隐私, 延迟以及每一次查询的成本。这样看来, 所谓 Apple 如今依赖 Gemini 的说法夸大了事实, 这是一种层层让步的安排而非彻底投降, Apple 保留了最要紧的部分, 即在自家模型上的端侧推理, 只让出了云端后备这一块。这套安排没有公布具体数字, 不过 The Information 曾报道 (Apple 未予确认) 部分云端推理可能运行在 Google 数据中心内的 Nvidia B200 芯片上。

值得关注的原因在于它所指向的方向。在本地以零 token 成本运行从几十亿参数到 700亿参数的模型, 并通过从更大的前沿模型中蒸馏知识来训练它们, 是当下 AI 领域最具深远意义的押注之一, 因为它把能力从计费的云端拉回到设备上。Apple 拥有把这件事推得比几乎任何人都更远的芯片实力与规模。诚实的保留意见是, 正式版本要到秋季才会到来, 大型端侧模型的真实表现仍是悬而未决的问题, 而老师而非引擎在一定程度上也是 Apple 自己对一段它更愿意淡化的关系的措辞。但自有的, 由蒸馏训练而来的端侧模型, 恰恰是大量有趣工作正在奔赴的方向, 而 Apple 刚刚把可供构建于其上的框架交到了开发者手中。