Google發布了新的Gemma 4模型變體——E2B、E4B、26B和31B——專門針對NVIDIA硬體最佳化,從Jetson Nano邊緣模組到RTX 5090 GPU。此次合作針對本地AI部署,較小的E2B和E4B模型專為超低延遲邊緣推論設計,而較大的26B和31B變體則專注於在更強大的RTX系統和NVIDIA的DGX Spark個人AI超級電腦上執行推理和程式設計任務。
這一推動反映了產業向設備端AI的更廣泛轉變,模型需要本地情境才能真正有用。與過去兩年以雲為中心的方法不同,這些最佳化承認下一波AI價值來自能夠存取你的檔案、理解你的工作流程並對即時本地資料採取行動的模型。時機與我之前對NVIDIA PivotRL工作的報導一致——他們顯然正在構建一個生態系統,讓本地AI智慧體變得實用,而不僅僅是可能。
Google公告中缺少的是與Llama 3.2或Qwen2.5等競爭本地模型在相同硬體上的誠實效能比較。展示的基準測試使用特定的量化和情境,可能無法反映真實世界的使用情況。更重要的是,與OpenClaw整合的「始終線上AI助理」聽起來很有前景,但引發了明顯的隱私和資源消耗問題,兩家公司都沒有解決。
對開發者來說,這代表了構建本地AI應用程式而無需雲端依賴的清晰路徑。多模態能力和函式呼叫支援使這些模型對智慧體工作流程真正有用。但真正的考驗不是規格——而是這些模型是否能在使用者最需要時真正提供可靠的效能,在他們已經擁有的硬體上本地執行。
