Google本周为Gemini推出了交互式3D模型生成功能,让用户可以创建能够实时操作的仿真。要求一个围绕地球轨道运行的月球,你就能得到一个带有速度滑块、轨道路径切换和旋转控制的3D模型。该功能通过Gemini的Pro模型运行,响应诸如"给我展示一个双摆"或"帮我可视化多普勒效应"等提示。然后用户点击"显示可视化"来激活交互元素。

这感觉更像是基本要求,而不是创新。几周前Anthropic就给Claude加上了自动图表生成,而OpenAI大约同时为ChatGPT添加了数学和科学可视化。Google正在一个视觉AI响应正在变成期望而非令人印象深刻的领域里追赶。真正的问题不是Gemini能否渲染一个旋转的行星——而是这些3D模型是否足够准确用于实际学习,还是只是炫目的演示。

有说服力的是Google如何将此定位为"升级",而实际上这只是功能平衡。公司的定价结构揭示了他们的优先级:基础访问免费,但好东西需要付费层级。虽然竞争对手专注于让他们的AI默认更有用,Google似乎更有兴趣创建升级路径。3D模型确实有效,但它们被模型选择限制,需要特定的提示模式。

对开发者来说,这表明行业的发展方向——多模态输出不再是可选的。如果你在构建AI产品,用户会期待视觉响应,而不只是文本。但不要被3D的光彩分散注意力。专注于准确性和实用性而非视觉效果,因为那里才是真正价值所在。