Google发布了新的Gemma 4模型变体——E2B、E4B、26B和31B——专门针对NVIDIA硬件优化,从Jetson Nano边缘模块到RTX 5090 GPU。此次合作针对本地AI部署,较小的E2B和E4B模型专为超低延迟边缘推理设计,而较大的26B和31B变体则专注于在更强大的RTX系统和NVIDIA的DGX Spark个人AI超级计算机上执行推理和编程任务。

这一推动反映了行业向设备端AI的更广泛转变,模型需要本地上下文才能真正有用。与过去两年以云为中心的方法不同,这些优化承认下一波AI价值来自能够访问你的文件、理解你的工作流程并对实时本地数据采取行动的模型。时机与我之前对NVIDIA PivotRL工作的报道一致——他们显然正在构建一个生态系统,让本地AI智能体变得实用,而不仅仅是可能。

Google公告中缺少的是与Llama 3.2或Qwen2.5等竞争本地模型在相同硬件上的诚实性能比较。展示的基准测试使用特定的量化和上下文,可能无法反映真实世界的使用情况。更重要的是,与OpenClaw集成的"始终在线AI助手"听起来很有前景,但引发了明显的隐私和资源消耗问题,两家公司都没有解决。

对开发者来说,这代表了构建本地AI应用程序而无需云依赖的清晰路径。多模态能力和函数调用支持使这些模型对智能体工作流程真正有用。但真正的考验不是规格——而是这些模型是否能在用户最需要时真正提供可靠的性能,在他们已经拥有的硬件上本地运行。