總部位於香港、自2019年起被列入美國制裁名單的電腦視覺先驅商湯,週二在Hugging Face和GitHub以開源協定發布了SenseNova U1。這個模型的賣點把一個技術主張和一個供應鏈主張綁在一起。技術上:U1在生成和理解圖像時無需先把圖像翻譯成文字token,正如聯合創辦人兼首席科學家、同時也是香港中文大學資訊工程教授的林達華所說:「模型的整個推理過程不再侷限於文字——它也能用圖像來推理。」供應鏈上:寒武紀、壁仞科技等10家國產晶片設計公司在發布當天宣布相容。這個模型被定位為面向美國圖像與多模態前沿模型的中國堆疊替代品——架構和矽片層面都是。
技術主張是更值得玩味的那一半,儘管廠商基準還沒經過獨立驗證。當前大多數視覺-語言模型(GPT-4o、帶視覺的Claude、Gemini)處理圖像的方式是把它編碼成一串離散或連續的token,送進與處理文字相同的transformer——本質上把視覺翻譯成模型已經懂的語言。原生圖像推理架構跳過這一翻譯步驟,直接在模型的推理軌跡中處理視覺表徵。如果商湯真的把這個做到了生產級,它就把一個研究方向(參見Anole、Chameleon類原生多模態)推進到了一個可用的開源產物。林把它框定為未來機器人學的基礎:「能直接處理圖像的模型將讓機器人更好地理解物理世界。」這與Figure、Physical Intelligence、DeepMind的Gemini Robotics背後的具身AI架構押注是同一件事——但帶著中國開源授權。
供應鏈故事才是真正讓這件事在地緣政治上變重的部分。商湯在後ChatGPT時代的賽跑裡落後了,聚光燈被更新一代中國新創公司DeepSeek和MiniMax奪走——這兩家都交付了帶有顯著開源發布的前沿級語言模型。商湯用U1做了獨特的事:發布一個被10家國產矽片廠商(寒武紀、壁仞,以及大概率華為昇騰、摩爾線程、天數智芯、燧原等)在第一天就完成驗證的模型。這種協同本身才是真產品。美國出口管制限制中國獲取頂級英偉達訓練晶片,但對生產級AI經濟性而言,推理正越來越成為約束所在——而一個能在國產加速器上原生執行的開源模型,本質上是對整個訓練時段制裁體制的對沖。林承認商湯「可能仍需使用最好的晶片來保證我們迭代的速度」——也就是說,訓練悄悄在他們能搞到的英偉達硬體上進行——但推理可以做到完全自主可控。
對builder而言,有三點收穫。第一,留意基準社群:Hugging Face和Twitter上的ML帳號很可能在幾天內放出獨立評測數字,U1聲稱「遠快於美國頂級模型」需要在標準化視覺-語言基準(MMMU、MMBench、ScienceQA)上做驗證才可信。第二,多晶片廠商支持模式是可複製的、被低估的關鍵:如果你在做開源模型,為異質加速器(不只英偉達)的可移植性做設計,正在從事後想法變成戰略級功能。第三,這是「開源即迭代速度」這一更宏大命題的又一個資料點——林那句「開源還是閉源不是勝負手,迭代速度才是」與DeepSeek和Mistral的戰略押注遙相呼應。受制裁狀態下中國AI戰略已收斂到同一個答案:開放權重、接受失去專有壁壘、靠迭代速度與生態廣度取勝。這比當前美國前沿實驗室所佔據的位置,是一個更耐久的戰略陣地。
