StepFun證明了中國的人工智慧生態系統可以從零開始孕育出真正的競爭對手,而不僅僅依賴現有的科技巨頭。他們的Step模型在國際基準測試中持續表現超出其實力,而他們快速拓展至多模態與視頻生成領域,也顯示出組織良好的新創公司即使資源相對有限,也能涵蓋廣泛的能力範疇。對全球人工智慧市場而言,StepFun代表了那種讓中國獨立AI新創生態無法被忽視的公司——技術實力雄厚、具備國際化導向,且前進速度足夠迅速,讓規模更大的競爭對手不敢掉以輕心。
StepFun(正式名為界躍星辰,寓意「邁向星辰」)由前微軟亞洲研究院高階研究員江大新於2023年創立。江曾多年投入大規模語言模型與多模態系統的研究,認為時機成熟後,決定在上海成立獨立的人工智慧公司。StepFun在早期輪次中從騰訊、紅杉資本中國及中關村科學城等投資人籌集約1億美元資金,足夠在計算資源日益稀缺的市場中取得重要的GPU資源。從第一天起,公司便致力於打造能與國際競爭的通用基礎模型,而不僅僅局限於中國本土市場。對一家成立不過數月的初創公司來說,這樣的雄心壯志並不多見,但StepFun卻以令人驚訝的強大基準測試結果作為背書。
StepFun的模型陣容發展迅速。Step-1系列於2024年分階段推出,證明了資源充足的初創公司能夠匹敵甚至超越規模更大的機構的成果。當時,他們的視覺語言模型Step-1V在多模態基準測試中表現競爭力,而此領域當時仍由Google、OpenAI及少數中國巨頭主導。後續推出的Step-2進一步深入多步推理與工具使用。StepFun之所以脫穎而出,並非單一突破,而是持續性:每次發布都展現真實進步,且模型在中英文任務中表現均佳,顯示訓練資料與方法學是經過深思熟慮組合,而非僅僅增加計算資源與數據規模。公司亦透過Hugging Face及自家API釋出模型,使其對國際開發者社群開放。
當許多中國AI初創公司最初專注於純文字語言模型時,StepFun則積極拓展至多模態領域。他們的Step-1.5V及後續視覺模型能同時處理圖像、圖表、文件與文字,針對日益重要的視覺推理利基市場。近期,StepFun更透過Step Video進入視頻生成領域,與Kling、Vidu及各類Hunyuan視頻模型一同參與這場競爭激烈但備受關注的賽局。視頻相關工作值得注意之處在於,它需要完全不同的基礎設施與專業知識——時間一致性、具物理意識的生成能力,以及處理長格式輸出的能力。StepFun願意在核心語言模型工作之外同時應戰,顯示出非凡的自信或雄心,或許二者兼備。
2023至2025年間,中國的AI初創生態被形容為「百模戰爭」,眾多公司耗資數十億元追逐相同目標。StepFun的策略是在技術上保持競爭力,同時相較於Moonshot AI或智譯AI等同行保持精簡。公司對消費端產品的積極度較部分競爭對手為低,反而聚焦於API存取與開發者工具——押注AI的真正利潤將來自企業整合,而非聊天機器人訂閱。這種做法與歐洲的Mistral公司類似,也讓StepFun擁有靈活性:他們可與大型企業合作進行分銷,同時維持對核心技術的控制權。問題在於,一家相對年輕的初創公司是否能持續投入所需的計算資源,以在訓練成本攀升至數百萬美元的時代維持前沿地位。