Google今天發布了四種規格的Gemma 4:Effective 2B、Effective 4B、26B Mixture of Experts和31B Dense,聲稱其31B模型在Arena AI文字leaderboard上排名第3,26B獲得第6名。這些模型採用Apache 2.0授權,基於與Gemini 3相同的研究構建,Google強調「每參數智慧」效率,據稱能讓它們「超越20倍規模的模型」。

時機很有意思。正當社群討論真正開放的開發是否能與封閉系統競爭時,Google正在大力推進開源模型。他們聲稱之前Gemma版本有4億次下載,暗示真實的採用率,但Arena AI排名可能被操縱,並不總是反映真實世界的效能。專注參數效率比排名更重要——如果26B模型真的能像500B+模型一樣表現,那對於大規模推理的開發者來說是硬體遊戲規則改變者。

Google沒有提供其效能聲明的獨立驗證,我也找不到其他來源的報導來證實他們引用的Arena AI排名。對「agentic workflows」和「進階推理」的強調聽起來像標準的模型發布行銷,但具體的硬體定位——從Android裝置到筆電GPU——表明他們對邊緣部署是認真的。

對於建構者來說,真正的測試不是leaderboard位置,而是這些模型是否真正在消費級硬體上提供前沿能力。如果效率聲明成立,Gemma 4可能會民主化進階AI推理的存取。如果不是,這只是另一個過度炒作的模型發布,帶著精心挑選的benchmark。