总部位于香港、自2019年起被列入美国制裁名单的计算机视觉先驱商汤,周二在Hugging Face和GitHub以开源协议发布了SenseNova U1。这个模型的卖点把一个技术主张和一个供应链主张绑在一起。技术上:U1在生成和理解图像时无需先把图像翻译成文本token,正如联合创始人兼首席科学家、同时也是香港中文大学信息工程教授的林达华所说:"模型的整个推理过程不再局限于文本——它也能用图像来推理。"供应链上:寒武纪、壁仞科技等10家国产芯片设计公司在发布当天宣布兼容。这个模型被定位为面向美国图像与多模态前沿模型的中国栈替代品——架构和硅片层面都是。
技术主张是更值得玩味的那一半,尽管厂商基准还没经过独立验证。当前大多数视觉-语言模型(GPT-4o、带视觉的Claude、Gemini)处理图像的方式是把它编码成一串离散或连续的token,送进与处理文本相同的transformer——本质上把视觉翻译成模型已经懂的语言。原生图像推理架构跳过这一翻译步骤,直接在模型的推理轨迹中处理视觉表征。如果商汤真的把这个做到了生产级,它就把一个研究方向(参见Anole、Chameleon类原生多模态)推进到了一个可用的开源产物。林把它框定为未来机器人学的基础:"能直接处理图像的模型将让机器人更好地理解物理世界。"这与Figure、Physical Intelligence、DeepMind的Gemini Robotics背后的具身AI架构押注是同一件事——但带着中国开源许可。
供应链故事才是真正让这件事在地缘政治上变重的部分。商汤在后ChatGPT时代的赛跑里落后了,聚光灯被更新一代中国创业公司DeepSeek和MiniMax夺走——这两家都交付了带有显著开源发布的前沿级语言模型。商汤用U1做了独特的事:发布一个被10家国产硅片厂商(寒武纪、壁仞,以及大概率华为昇腾、摩尔线程、天数智芯、燧原等)在第一天就完成验证的模型。这种协同本身才是真产品。美国出口管制限制中国获取顶级英伟达训练芯片,但对生产级AI经济性而言,推理正越来越成为约束所在——而一个能在国产加速器上原生运行的开源模型,本质上是对整个训练时段制裁体制的对冲。林承认商汤"可能仍需使用最好的芯片来保证我们迭代的速度"——也就是说,训练悄悄在他们能搞到的英伟达硬件上进行——但推理可以做到完全自主可控。
对builder而言,有三点收获。第一,留意基准社区:Hugging Face和Twitter上的ML账号很可能在几天内放出独立评测数字,U1声称"远快于美国顶级模型"需要在标准化视觉-语言基准(MMMU、MMBench、ScienceQA)上做验证才可信。第二,多芯片厂商支持模式是可复制的、被低估的关键:如果你在做开源模型,为异构加速器(不只英伟达)的可移植性做设计,正在从事后想法变成战略级功能。第三,这是"开源即迭代速度"这一更宏大命题的又一个数据点——林那句"开源还是闭源不是胜负手,迭代速度才是"与DeepSeek和Mistral的战略押注遥相呼应。受制裁状态下中国AI战略已收敛到同一个答案:开放权重、接受失去专有壁垒、靠迭代速度与生态广度取胜。这比当前美国前沿实验室所占据的位置,是一个更耐久的战略阵地。
