Google本週為Gemini推出了互動式3D模型生成功能,讓使用者可以創建能夠即時操作的模擬。要求一個繞地球軌道運行的月球,你就能得到一個帶有速度滑桿、軌道路徑切換和旋轉控制的3D模型。該功能透過Gemini的Pro模型運作,回應諸如「給我展示一個雙擺」或「幫我視覺化都卜勒效應」等提示。然後使用者點擊「顯示視覺化」來啟動互動元素。
這感覺更像是基本需求,而不是創新。幾週前Anthropic就給Claude加上了自動圖表生成,而OpenAI大約同時為ChatGPT添加了數學和科學視覺化。Google正在一個視覺AI回應正變成期待而非令人印象深刻的領域裡追趕。真正的問題不是Gemini能否渲染一個旋轉的行星——而是這些3D模型是否足夠準確用於實際學習,還是只是炫目的展示。
有說服力的是Google如何將此定位為「升級」,而實際上這只是功能平衡。公司的定價結構揭示了他們的優先順序:基礎存取免費,但好東西需要付費層級。雖然競爭對手專注於讓他們的AI預設更有用,Google似乎更有興趣創建升級路徑。3D模型確實有效,但它們被模型選擇限制,需要特定的提示模式。
對開發者來說,這表明產業的發展方向——多模態輸出不再是可選的。如果你在構建AI產品,使用者會期待視覺回應,而不只是文字。但不要被3D的光彩分散注意力。專注於準確性和實用性而非視覺效果,因為那裡才是真正價值所在。
