StepFun证明了中国的AI生态系统能够从零开始培育出真正的竞争对手,而不仅仅是依赖现有的科技巨头。他们的Step模型在国际基准测试中始终表现超出其体量,而他们快速扩展到多模态和视频生成领域,也表明组织良好的初创公司即使资源相对有限,也能覆盖广泛的能力范围。对于全球AI市场而言,StepFun代表了那种让中国独立AI初创企业生态无法被忽视的公司——技术实力强劲、面向国际市场,并且发展速度足够快,足以让许多规模更大的竞争对手保持警惕。
StepFun(正式名称为“界跃星辰”,意为“迈向星辰”)由前微软亚洲研究院高级研究员姜大新于2023年创立。姜大新在决定在上海建立独立AI公司之前,曾多年从事大规模语言模型和多模态系统的研发。StepFun在早期融资中从腾讯、红杉中国和中关村科学城等投资者处筹集了约1亿美元资金,这在计算资源日益稀缺的市场中足以确保获得大量GPU资源。从第一天起,该公司就立志打造能够与国际竞争的通用基础模型,而不仅仅局限于中国国内市场。对于一家成立仅数月的初创公司而言,这种雄心壮志颇为不寻常,但StepFun凭借令人意外的强劲基准测试结果为其提供了支撑。
StepFun的模型阵容发展迅速。2024年分阶段发布的Step-1系列证明,拥有充足资源的初创公司能够匹配甚至超越一些大型组织的输出成果。在当时仍由谷歌、OpenAI及几家中国巨头主导的领域中,他们的视觉语言模型Step-1V在多模态基准测试中表现出了竞争力。随后发布的Step-2进一步深入多步骤推理和工具使用。StepFun之所以与众不同,并非因为某一项突破,而是其一致性:每次发布都显示出真正的进步,且模型在中文和英文任务中均表现良好,这表明训练数据和方法论是经过深思熟虑的组装,而非简单地将更多计算资源投入更大的数据集。公司还通过Hugging Face和自有API发布模型,使其对国际开发者社区开放。
当许多中国AI初创公司最初专注于纯文本语言模型时,StepFun则迅速进军多模态领域。他们的Step-1.5V及后续视觉模型能够同时处理图像、图表、文档和文本,瞄准日益重要的视觉推理细分市场。最近,StepFun通过Step Video进入视频生成领域,与Kling、Vidu及各种Hunyuan视频模型一同加入这一竞争激烈但备受关注的赛道。视频工作之所以引人注目,是因为它需要完全不同的基础设施和专业知识——时间一致性、物理感知生成以及处理长篇输出的能力。StepFun愿意在核心语言模型工作之外同时挑战这一领域,表明其要么具有非凡的信心,要么具有非凡的雄心,抑或两者兼有。
2023至2025年的中国AI初创公司场景被描述为“百模大战”,数十家公司耗费数十亿人民币争夺同一目标。StepFun的策略是在技术上保持竞争力,同时相较于Moonshot AI或智谱AI等同行保持精简。该公司在面向消费者的产品上不如一些竞争对手激进,而是专注于API接入和开发者工具——押注AI的真正收益将通过企业集成而非聊天机器人订阅实现。这与欧洲Mistral公司的做法相似,也赋予StepFun灵活性:他们可以与大型公司合作进行分发,同时保持对核心技术的控制。问题是,一家相对年轻的初创公司能否在训练成本飙升至数亿美元的情况下,持续投入足够的计算资源以保持前沿地位。