Meta的Muse Spark承認程式設計缺陷，儘管宣稱基準測試表現良好

Meta的超級智慧實驗室週三發布了Muse Spark，標誌著該公司與表現平庸的Llama系列徹底決裂，推出了一個整合Instagram、Facebook和Threads內容的專有模型。該模型具備「Contemplating」模式，可並行運行多達16個agent，在使用外部工具的Humanity's Last Exam中獲得58.4分——儘管Meta羞澀地承認在程式設計工作流程和長期agent系統中存在「當前性能差距」。

這代表了Meta多年來最誠實的模型發布。當競爭對手將程式設計能力吹噓為基本要求時，Meta對程式設計差距的坦率承認要麼表明了令人耳目一新的透明度，要麼暴露了令人擔憂的局限性。超級智慧實驗室的「全面徹底改革」表明Meta知道Llama在對抗GPT-4和Claude時力不從心——這是對開源善意無法彌補性能缺陷的默認承認。

Meta社交平台的整合使Muse Spark有別於純推理模型，將其定位得更像xAI的Grok而非傳統助手。公司承諾未來會有開源的Muse模型，但這種專有優先的方法與Meta之前的開源定位相矛盾。並行agent架構在技術上很有趣，儘管16個agent運行時的「可比延遲」要麼表明令人印象深刻的最佳化，要麼是對較慢性能的行銷包裝。

對開發者而言，儘管Muse Spark在推理基準測試中表現強勁，但其程式設計局限性使其不適合嚴肅的開發工作。社交整合可能對消費者應用有價值，但缺乏API存取限制了即時採用。Meta對差距的誠實值得稱讚，但在2026年承認你的模型無法程式設計，就像推出一輛沒有輪子的汽車。

Meta的Muse Spark承認程式設計缺陷，儘管宣稱基準測試表現良好

更多新聞