Meta的超級智慧實驗室週三發布了Muse Spark,標誌著該公司與表現平庸的Llama系列徹底決裂,推出了一個整合Instagram、Facebook和Threads內容的專有模型。該模型具備「Contemplating」模式,可並行運行多達16個agent,在使用外部工具的Humanity's Last Exam中獲得58.4分——儘管Meta羞澀地承認在程式設計工作流程和長期agent系統中存在「當前性能差距」。
這代表了Meta多年來最誠實的模型發布。當競爭對手將程式設計能力吹噓為基本要求時,Meta對程式設計差距的坦率承認要麼表明了令人耳目一新的透明度,要麼暴露了令人擔憂的局限性。超級智慧實驗室的「全面徹底改革」表明Meta知道Llama在對抗GPT-4和Claude時力不從心——這是對開源善意無法彌補性能缺陷的默認承認。
Meta社交平台的整合使Muse Spark有別於純推理模型,將其定位得更像xAI的Grok而非傳統助手。公司承諾未來會有開源的Muse模型,但這種專有優先的方法與Meta之前的開源定位相矛盾。並行agent架構在技術上很有趣,儘管16個agent運行時的「可比延遲」要麼表明令人印象深刻的最佳化,要麼是對較慢性能的行銷包裝。
對開發者而言,儘管Muse Spark在推理基準測試中表現強勁,但其程式設計局限性使其不適合嚴肅的開發工作。社交整合可能對消費者應用有價值,但缺乏API存取限制了即時採用。Meta對差距的誠實值得稱讚,但在2026年承認你的模型無法程式設計,就像推出一輛沒有輪子的汽車。
