Google 把 Gemma 4 放到 Apache 2.0 下发布，把可商用的开放权重推到多模态-agentic 前沿

Google DeepMind 在 4 月 2 日以 Apache 2.0 协议发布了 Gemma 4，这是 Gemma 系列第一次在 OSI 认证的开源协议下发布，也是 Google 到目前为止在开放权重策略上最有份量的一步。之前的 Gemma 版本是在"Gemma license"下发布的，其中的商用限制把不少模型挡在了生产 pipeline 之外。Apache 2.0 把这些限制都拿掉了。这一代涵盖四个尺寸：E2B 和 E4B 两个"effective"edge 版本、一个 26B 的 MoE，以及一个 31B 的稠密模型，其中 31B 在 Arena 开放模型榜上排第 3。所有模型都原生多模态（视频、图像、OCR、图表理解，支持可变分辨率输入），并且原生 agentic（function calling、结构化 JSON 输出、系统指令支持）。E2B 和 E4B 这两个 edge 版本还额外原生接受音频输入，用于语音识别和理解。上下文窗口方面，edge 版本是 128K，更大的模型最高到 256K，模型原生训练覆盖 140 多种语言。

协议的变化，和技术参数一样重要。之前那批想在 Gemma 3 上做产品、却在项目后期才发现旧协议里商用条款的团队，要么重写去跑 Llama、Mistral 或 Qwen 的权重，要么接受限制并向客户解释。Apache 2.0 是商业上开放的、对专利友好的，和绝大多数企业法务立场都兼容。这正是企业买家嘴里说"我要开放权重"时实际想要的那种开放。能力上，31B 稠密模型在 Arena 开放榜 #3 的排名是真实的，26B MoE 排 #6、在每次推理成本上很强。E2B 和 E4B 两款 edge 模型才是这次故事里更新的一块。在 2 到 4B 有效规模的体量里做到 edge 友好的多模态，且原生支持音频输入，这是第一次真正意义上、在端上去对标 Apple 和 Qualcomm 家那些专有 edge 模型的替代品；128K 的上下文窗口也足够撑起真实的文档处理负载，而不是玩具级 demo。至于 agentic-原生的设计决策，像是 function calling 和结构化 JSON 作为一等输出、系统指令放在协议层支持，也让很多团队过去两年里自己搭的脚手架可以减掉一层。

4 月的开放权重版图，现在比之前更连贯、不那么碎了。Llama 的商用附加条款还在，Mistral 的协议因模型不同而不同，Qwen 是 Apache 2.0 但对一些买家而言存在"来源感知"上的风险，DeepSeek 能力强但有类似的地缘政治考量。Gemma 4 在 Apache 2.0 下从一个 Google 规模的实验室发布，让那些想要开放权重但既不想承担监管暴露、也不想被商用条款绑住的企业，采购会议里的话题都换了味道。这对托管 API 业务的冲击，比多数报道承认的更有意思。如果你能用家用级推理成本跑一个 31B 模型，并且在原生 function calling 的前提下拿到 Arena 第 3 的质量水平，那"所有流量都打到 Anthropic 或 OpenAI 的 API"这条经济账，对那些并不特别需要前沿推理的任务类就开始站不住了。这并不会马上威胁到头部实验室，因为前沿质量对复杂工作仍然是区分度。但它会挤压中间层的 API 业务，而真实的流量大头恰好就在这一层。

给构建者的三个具体动作。第一，把 Gemma 4 拉进来，和你目前用在模型路由中间段的那个做对比；Apache 2.0 把"这个不能上生产"这块旧路障拿掉，而能力也可能把批量任务上的质量差距拉平。第二，E2B 和 E4B 这两款 edge 版本值得专门搭原型，用来验证那些"设备端推理会改变产品形态"的工作流，具体来说就是隐私敏感数据、离线运行、低延迟交互。原生音频输入，对"语音优先"类产品尤其有意思。第三，agentic-原生的设计（function calling 是一等输出、结构化 JSON、系统指令）意味着 agent 部署里可以拆掉不少自建脚手架。之前为 Gemma 3 自己写过 tool-calling shim 的团队，现在可以删掉一部分代码。真正在和法务、采购改变路线图对话的那块细节，不是跑分，而是这次的协议变更。如果你之前靠"开放权重在商用上不干净"来支持走专有 API 这条路，今天开始，这个论点要弱一些。

Google 把 Gemma 4 放到 Apache 2.0 下发布，把可商用的开放权重推到多模态-agentic 前沿

更多新闻