Meta的Muse Spark承认编程缺陷，尽管宣称基准测试表现良好

Meta的超级智能实验室周三发布了Muse Spark，标志着该公司与表现平庸的Llama系列彻底决裂，推出了一个集成Instagram、Facebook和Threads内容的专有模型。该模型具备"Contemplating"模式，可并行运行多达16个agent，在使用外部工具的Humanity's Last Exam中获得58.4分——尽管Meta羞涩地承认在编程工作流程和长期agent系统中存在"当前性能差距"。

这代表了Meta多年来最诚实的模型发布。当竞争对手将编程能力吹嘘为基本要求时，Meta对编程差距的坦率承认要么表明了令人耳目一新的透明度，要么暴露了令人担忧的局限性。超级智能实验室的"全面彻底改革"表明Meta知道Llama在对抗GPT-4和Claude时力不从心——这是对开源善意无法弥补性能缺陷的默认承认。

Meta社交平台的整合使Muse Spark有别于纯推理模型，将其定位得更像xAI的Grok而非传统助手。公司承诺未来会有开源的Muse模型，但这种专有优先的方法与Meta之前的开源定位相矛盾。并行agent架构在技术上很有趣，尽管16个agent运行时的"可比延迟"要么表明令人印象深刻的优化，要么是对较慢性能的营销包装。

对开发者而言，尽管Muse Spark在推理基准测试中表现强劲，但其编程局限性使其不适合严肃的开发工作。社交整合可能对消费者应用有价值，但缺乏API访问限制了即时采用。Meta对差距的诚实值得称赞，但在2026年承认你的模型无法编程，就像推出一辆没有轮子的汽车。

Meta的Muse Spark承认编程缺陷，尽管宣称基准测试表现良好

更多新闻