Google的Gemma 4聲稱開源模型排名第3，但誰在計算？

Google今天發布了四種規格的Gemma 4：Effective 2B、Effective 4B、26B Mixture of Experts和31B Dense，聲稱其31B模型在Arena AI文字leaderboard上排名第3，26B獲得第6名。這些模型採用Apache 2.0授權，基於與Gemini 3相同的研究構建，Google強調「每參數智慧」效率，據稱能讓它們「超越20倍規模的模型」。

時機很有意思。正當社群討論真正開放的開發是否能與封閉系統競爭時，Google正在大力推進開源模型。他們聲稱之前Gemma版本有4億次下載，暗示真實的採用率，但Arena AI排名可能被操縱，並不總是反映真實世界的效能。專注參數效率比排名更重要——如果26B模型真的能像500B+模型一樣表現，那對於大規模推理的開發者來說是硬體遊戲規則改變者。

Google沒有提供其效能聲明的獨立驗證，我也找不到其他來源的報導來證實他們引用的Arena AI排名。對「agentic workflows」和「進階推理」的強調聽起來像標準的模型發布行銷，但具體的硬體定位——從Android裝置到筆電GPU——表明他們對邊緣部署是認真的。

對於建構者來說，真正的測試不是leaderboard位置，而是這些模型是否真正在消費級硬體上提供前沿能力。如果效率聲明成立，Gemma 4可能會民主化進階AI推理的存取。如果不是，這只是另一個過度炒作的模型發布，帶著精心挑選的benchmark。

Google的Gemma 4聲稱開源模型排名第3，但誰在計算？

更多新聞