Two Minute Papers 的 Károly Zsolnai-Fehér 博士发布了一支关于 Google DeepMind Gemma 4 的讲解视频,如果你正在为 2026 年做模型选型决策,这支视频值得一看。这个频道的做法,是拿到研究发布之后不立刻蹭热点,而是先让社区跑上几周的真实使用体验,再给出一个判断。这里给出的判断是有保留地看好。Gemma 4 第一周的下载量达到 1000 万次;最小那一款能在手机上离线运行,而且在这支视频里还漂亮地跑在一台第一代 Nintendo Switch 上;Apache 2.0 许可终于把旧版 Gemma 许可加在商用上的那副手铐拿了下来。我昨天已经写过这次许可变化和多模态-agentic 前沿上的定位,这支视频正好补上了我那篇文章里没能展开的技术架构细节。
这里有四个架构细节值得拎出来看。第一,训练数据是经过筛选的,而不是把半个互联网扔进去,Károly 把这种做法概括为「不要什么都往里进,好好筛一下你自己的信息饮食」,这句话既适用于模型,也适用于人。第二,混合注意力:本地滑动窗口加上一次全局注意力,同一个模型在盯句子层面细节的同时还能在"这是哪本书、现在是哪一章"的整体层面上保持感觉。第三,原生的图像理解保留了横向画面的长宽比,不再像 Gemma 3 那样把图先压成正方形(这其实悄悄拖垮了很多图像基准)。第四,跨层共享的 KV-cache,后层不再从零重算,而是直接借用前层已经算出来的记忆。这些单看都是小的改进,但合在一起就解释了为什么那个 31B 的稠密模型能在某些基准上跑赢体量 10 倍的 MoE 对手,而稠密模型这件事本来大家以为多年前就已经输给 MoE 了。
「给人类的礼物」这种说法是认真的,而且值得按字面意思接住。Károly 在结尾给出一个很具体的对照:Gemma 4 落地的同一时刻,"一款前沿模型刚刚被锁给少数几家精选客户"。这就是我昨天写过的那种门禁式访问模式(Anthropic Mythos、OpenAI GPT-Rosalind,只对网络安全、制药类合作方开放)。视频的情绪逻辑是:开放权重的 Gemma 4 是对那种锁闭的对冲,是一件"他们"拿不走的东西。实际落地上要细一点看。能跑在手机上的开放权重,并不是在和 Trusted Access 门后那种前沿能力正面竞争,而是在和通用 API(GPT-5.4、Claude Opus 4.7)争那些 13B 或 31B 就已经够用的工作负载。对大多数构建者、大多数时间,"够用"就已经够了。
如果你在权衡要不要把 Gemma 4 加进你家技术栈,先看这支视频,然后把 26B MoE 和 31B 稠密这两款拉出来,用你真实的工作负载跑一跑。Károly 诚实列出的那些缺点才是真正有用的部分:这个模型没有实时数据源,不挂 agent harness 的话会"自信地错";在复杂开放型任务上吃力;在精细视觉细节上(草叶、远处的栅栏)眼神还是偏弱。这和基准测试反映的情况是对得上的。对那些非编码、非前沿推理类的工作负载(摘要、翻译、例行的 agent 工具调用、端上推理),Gemma 4 现在就是你拿来衡量其他一切的"开放基线",Apache 2.0 许可在采购流程上的友好程度是 Gemma 3 从来没达到过的。此外,如果你需要一段有说服力的内部讲解,去说服一个持怀疑态度的利益相关方,Two Minute Papers 在八分钟里已经帮你做完了。