Google今天发布了四种规格的Gemma 4:Effective 2B、Effective 4B、26B Mixture of Experts和31B Dense,声称其31B模型在Arena AI文本leaderboard上排名第3,26B获得第6名。这些模型采用Apache 2.0许可,基于与Gemini 3相同的研究构建,Google强调"每参数智能"效率,据称能让它们"超越20倍规模的模型"。

时机很有意思。正当社区讨论真正开放的开发是否能与封闭系统竞争时,Google正在大力推进开源模型。他们声称之前Gemma版本有4亿次下载,暗示真实的采用率,但Arena AI排名可能被操纵,并不总是反映真实世界的性能。专注参数效率比排名更重要——如果26B模型真的能像500B+模型一样表现,那对于大规模推理的开发者来说是硬件游戏规则改变者。

Google没有提供其性能声明的独立验证,我也找不到其他来源的报道来证实他们引用的Arena AI排名。对"agentic workflows"和"高级推理"的强调听起来像标准的模型发布营销,但具体的硬件定位——从Android设备到笔记本GPU——表明他们对边缘部署是认真的。

对于构建者来说,真正的测试不是leaderboard位置,而是这些模型是否真正在消费级硬件上提供前沿能力。如果效率声明成立,Gemma 4可能会民主化高级AI推理的访问。如果不是,这只是另一个过度炒作的模型发布,带着精心挑选的benchmark。