Google的Gemma 4声称开源模型排名第3，但谁在统计？

Google今天发布了四种规格的Gemma 4：Effective 2B、Effective 4B、26B Mixture of Experts和31B Dense，声称其31B模型在Arena AI文本leaderboard上排名第3，26B获得第6名。这些模型采用Apache 2.0许可，基于与Gemini 3相同的研究构建，Google强调"每参数智能"效率，据称能让它们"超越20倍规模的模型"。

时机很有意思。正当社区讨论真正开放的开发是否能与封闭系统竞争时，Google正在大力推进开源模型。他们声称之前Gemma版本有4亿次下载，暗示真实的采用率，但Arena AI排名可能被操纵，并不总是反映真实世界的性能。专注参数效率比排名更重要——如果26B模型真的能像500B+模型一样表现，那对于大规模推理的开发者来说是硬件游戏规则改变者。

Google没有提供其性能声明的独立验证，我也找不到其他来源的报道来证实他们引用的Arena AI排名。对"agentic workflows"和"高级推理"的强调听起来像标准的模型发布营销，但具体的硬件定位——从Android设备到笔记本GPU——表明他们对边缘部署是认真的。

对于构建者来说，真正的测试不是leaderboard位置，而是这些模型是否真正在消费级硬件上提供前沿能力。如果效率声明成立，Gemma 4可能会民主化高级AI推理的访问。如果不是，这只是另一个过度炒作的模型发布，带着精心挑选的benchmark。

Google的Gemma 4声称开源模型排名第3，但谁在统计？

更多新闻