Apple 正集中押注於在你的裝置上而非在資料中心運行的人工智慧,其 WWDC 公告中的兩條線索顯示了這份刻意有多深。其中一條是名為 Core AI 的新開發者框架。另一條則是關於下一代 Siri 究竟如何使用 Google 的 Gemini 的較低調細節,兩者共同描繪出一家公司,試圖擁有自家硬體上運行的模型,同時借用對手的模型,僅僅是為了教導自己的模型。

Core AI 是 Core ML 的後繼者,後者是 Apple 長期以來的裝置端機器學習框架,而 Core AI 是為生成式時代打造的。它讓 App 能完全在裝置端運行大型語言模型與生成式 AI,毫無伺服器依賴,也沒有 token 成本,並透過記憶體安全的 Swift API 同時支援自訂的 PyTorch 模型與預先最佳化的開源模型。Apple 表示它涵蓋很廣的範圍,從精簡的 30億參數視覺模型,到最高 700億參數的大型推理模型,並具備提前編譯以達成即時載入時間,以及 KV-cache 管理,自迴歸解碼,與專為注意力打造的 Metal 4 核心等生成式 AI 最佳化技術。它可跨 iPhone,iPad,Mac 與 Apple Vision Pro 運行,現已隨 Xcode 27 beta 提供給開發者,並預計在秋季的正式版中推出。

關於 Siri 的細節更為微妙,在某些方面也更具說明性。根據對主題演講未言明內容的分析,Apple 把 Gemini 當作老師而非引擎。Gemini 生成訓練資料與學習訊號,這些被蒸餾進 Apple 自家的第三代 Foundation Models,這個步驟在開發期間僅進行一次,而實際回答你請求的模型則在裝置上運行。只有在少數超出裝置端模型能力的請求時,才會作為後備在雲端連上 Gemini。

這個區別正是重點所在。訓練期的老師是一種一次性且可逆的依賴,是 Apple 日後可以替換或逐步擺脫的那種,而執行期的引擎則會是觸及隱私,延遲,以及每一次查詢成本的結構性鎖定。如此解讀,那種說 Apple 如今依賴 Gemini 的標題其實言過其實:這是一層層的讓步,而非投降,Apple 保留了最重要的部分,也就是在自家模型上的裝置端推論,僅僅讓出了一個雲端後備。這項安排並未公開任何數字,不過 The Information 曾報導,在 Apple 未予證實的情況下,部分雲端推論可能在 Google 資料中心內的 Nvidia B200 晶片上運行。

值得關注的原因在於它所指向的方向。在本地運行從數十億到 700億參數的模型,以零 token 成本,並透過從更大的前沿模型蒸餾知識來訓練它們,是當前 AI 領域最具影響力的押注之一,因為它把能力拉回裝置端,拉出計費的雲端。Apple 擁有的晶片與規模,能比幾乎任何人都把這條路推得更遠。誠實的但書是,正式版要到秋季才會推出,大型裝置端模型的真實世界效能仍是未解問題,而老師而非引擎的說法,有一部分是 Apple 對一段它寧願淡化的關係所做的自家框定。但由蒸餾教導出來的自有裝置端模型,正是許多有趣工作正在前往的方向,而 Apple 才剛把建構於其上的框架交到了開發者手中。