你現在不必碰雲端,就能在一組擺在桌上的 Mac 叢集上運行一兆參數的 AI 模型。LM Studio 表示,它與 Apple 合作,使用其軟體的預覽版本,在四台相互連結的 Mac Studio 上運行 Kimi K2.6,這是 Moonshot 推出的開放權重模型,擁有約一兆個參數,並具備安全的遠端存取功能。這項在 Apple 的 WWDC 2026 前後公開的展示,標誌著前沿規模模型的本地端內部推論已經走得多遠。
這套配置仰賴 Apple 一直默默打造的兩項基礎。第一是記憶體,四台 Mac Studio 透過 Thunderbolt 5 連結,匯集成約 1.5 TB 的統一記憶體,足以容納一兆參數模型的權重,否則這需要一整櫃的資料中心 GPU。第二是一項新功能,也就是 macOS 中基於 Thunderbolt 5 的 RDMA,它讓這些機器之間能夠快速搬移資料,足以像單一機器般運作。據報這類叢集運行 Kimi K2 的吞吐量約為每秒 25 個 token,足以應付真實工作,硬體成本約 4 萬美元,對個人而言價格不菲,但相較於同等的 GPU 伺服器卻是微不足道。
對 Apple 來說,這是一步定位之舉。在 WWDC 2026 上,它將 Mac Studio 定位為認真的本地 AI 工作站,並援引其最新晶片透過 LM Studio 運行模型時,token 生成上的大幅進步。但對開放權重的世界而言,這意義更為重大,像 Kimi K2.6 這樣前沿規模的模型竟然以開放權重發行,正是讓你能在自己硬體上運行它的關鍵。大型實驗室的封閉模型無法下載到桌上,開放的模型卻可以,而這項差別如今正是租用智慧與擁有運行它的機器之間的差別。
這項意義也與 AI 領域其他地方正在上演的成本議題相連。雲端推論是按用量計費的,帳單會隨使用量增加而攀升,而本地運行的模型則有固定的前期成本,完全沒有按 token 計費的機制。對於注重隱私或高用量的工作而言,這筆帳開始倒向桌上這一邊。誠實該說的限制是,每秒 25 個 token 對單一使用者沒問題,但無法服務眾多使用者,4 萬美元是道實實在在的門檻,而廠商的吞吐量宣稱也應以一貫的存疑態度看待。但方向難以忽視,前沿過去只存在於資料中心,而一兆個參數如今真的能裝進一組你買得到也拔得掉插頭的電腦叢集,雖然速度緩慢卻是真實可行。
