Two Minute Papers 谈 Gemma 4：「给人类的礼物」、混合注意力，以及一个能跑在初代 Nintendo Switch 上的 2B 模型

Two Minute Papers 的 Károly Zsolnai-Fehér 博士发布了一支关于 Google DeepMind Gemma 4 的讲解视频，如果你正在为 2026 年做模型选型决策，这支视频值得一看。这个频道的做法，是拿到研究发布之后不立刻蹭热点，而是先让社区跑上几周的真实使用体验，再给出一个判断。这里给出的判断是有保留地看好。Gemma 4 第一周的下载量达到 1000 万次；最小那一款能在手机上离线运行，而且在这支视频里还漂亮地跑在一台第一代 Nintendo Switch 上；Apache 2.0 许可终于把旧版 Gemma 许可加在商用上的那副手铐拿了下来。我昨天已经写过这次许可变化和多模态-agentic 前沿上的定位，这支视频正好补上了我那篇文章里没能展开的技术架构细节。

这里有四个架构细节值得拎出来看。第一，训练数据是经过筛选的，而不是把半个互联网扔进去，Károly 把这种做法概括为「不要什么都往里进，好好筛一下你自己的信息饮食」，这句话既适用于模型，也适用于人。第二，混合注意力：本地滑动窗口加上一次全局注意力，同一个模型在盯句子层面细节的同时还能在"这是哪本书、现在是哪一章"的整体层面上保持感觉。第三，原生的图像理解保留了横向画面的长宽比，不再像 Gemma 3 那样把图先压成正方形（这其实悄悄拖垮了很多图像基准）。第四，跨层共享的 KV-cache，后层不再从零重算，而是直接借用前层已经算出来的记忆。这些单看都是小的改进，但合在一起就解释了为什么那个 31B 的稠密模型能在某些基准上跑赢体量 10 倍的 MoE 对手，而稠密模型这件事本来大家以为多年前就已经输给 MoE 了。

「给人类的礼物」这种说法是认真的，而且值得按字面意思接住。Károly 在结尾给出一个很具体的对照：Gemma 4 落地的同一时刻，"一款前沿模型刚刚被锁给少数几家精选客户"。这就是我昨天写过的那种门禁式访问模式（Anthropic Mythos、OpenAI GPT-Rosalind，只对网络安全、制药类合作方开放）。视频的情绪逻辑是：开放权重的 Gemma 4 是对那种锁闭的对冲，是一件"他们"拿不走的东西。实际落地上要细一点看。能跑在手机上的开放权重，并不是在和 Trusted Access 门后那种前沿能力正面竞争，而是在和通用 API（GPT-5.4、Claude Opus 4.7）争那些 13B 或 31B 就已经够用的工作负载。对大多数构建者、大多数时间，"够用"就已经够了。

如果你在权衡要不要把 Gemma 4 加进你家技术栈，先看这支视频，然后把 26B MoE 和 31B 稠密这两款拉出来，用你真实的工作负载跑一跑。Károly 诚实列出的那些缺点才是真正有用的部分：这个模型没有实时数据源，不挂 agent harness 的话会"自信地错"；在复杂开放型任务上吃力；在精细视觉细节上（草叶、远处的栅栏）眼神还是偏弱。这和基准测试反映的情况是对得上的。对那些非编码、非前沿推理类的工作负载（摘要、翻译、例行的 agent 工具调用、端上推理），Gemma 4 现在就是你拿来衡量其他一切的"开放基线"，Apache 2.0 许可在采购流程上的友好程度是 Gemma 3 从来没达到过的。此外，如果你需要一段有说服力的内部讲解，去说服一个持怀疑态度的利益相关方，Two Minute Papers 在八分钟里已经帮你做完了。

Two Minute Papers 谈 Gemma 4：「给人类的礼物」、混合注意力，以及一个能跑在初代 Nintendo Switch 上的 2B 模型

更多新闻