A StepFun (oficialmente Jieyue Xingchen, significando "passo em direção às estrelas") foi fundada em 2023 por Jiang Daxin, ex-pesquisador sênior do Microsoft Research Asia. Jiang passou anos trabalhando em modelos de linguagem de larga escala e sistemas multimodais antes de decidir que era o momento certo para construir uma empresa de IA independente em Xangai. A StepFun levantou aproximadamente US$ 100 milhões em suas rodadas iniciais de investidores incluindo Tencent, Sequoia China e Zhongguancun Science City — o suficiente para garantir recursos significativos de GPU em um mercado onde computação estava se tornando cada vez mais escassa. Desde o primeiro dia, a empresa mirou em construir foundation models de propósito geral que pudessem competir internacionalmente, não apenas dentro do mercado doméstico chinês. Essa ambição era incomum para uma startup com mal meses de existência, mas a StepFun a respaldou com resultados de benchmark surpreendentemente fortes.
A linha de modelos da StepFun evoluiu rapidamente. A série Step-1, lançada em fases ao longo de 2024, demonstrou que uma startup bem financiada podia igualar ou exceder algumas saídas de organizações muito maiores. Step-1V, seu modelo de visão-linguagem, registrou scores competitivos em benchmarks multimodais numa época em que o campo ainda era dominado por Google, OpenAI e um punhado de gigantes chineses. Step-2, lançado depois, avançou mais em raciocínio multi-etapa e uso de ferramentas. O que diferenciou a StepFun não foi nenhum avanço único mas a consistência: cada lançamento mostrou melhoria genuína, e os modelos performaram bem tanto em tarefas chinesas quanto inglesas, sugerindo que os dados de treinamento e a metodologia foram cuidadosamente montados em vez de simplesmente jogar mais computação em um dataset maior.
Enquanto muitas startups de IA chinesas focaram inicialmente em modelos de linguagem apenas texto, a StepFun avançou agressivamente em território multimodal. Seus modelos Step-1.5V e visão subsequentes podiam processar imagens, gráficos e documentos junto com texto, mirando no nicho cada vez mais importante de raciocínio visual. Mais recentemente, a StepFun entrou no espaço de geração de vídeo com Step Video, juntando-se a uma corrida concorrida mas de alto perfil ao lado de Kling, Vidu e os vários modelos Hunyuan de vídeo. O trabalho em vídeo é notável porque requer um tipo fundamentalmente diferente de infraestrutura e expertise — consistência temporal, geração com consciência de física, e capacidade de lidar com saída de longa duração.
A cena de startups de IA da China em 2023-2025 tem sido descrita como uma "guerra de cem modelos", com dezenas de empresas queimando bilhões de yuans perseguindo o mesmo prêmio. A estratégia da StepFun tem sido manter-se tecnicamente competitiva enquanto permanece enxuta em relação a pares como Moonshot AI ou Zhipu AI. A empresa tem sido menos agressiva em produtos voltados ao consumidor que alguns concorrentes, focando em vez disso em acesso via API e ferramentas para desenvolvedores — uma aposta de que o dinheiro real em IA fluirá através de integração enterprise em vez de assinaturas de chatbot. Isso espelha a abordagem de empresas como Mistral na Europa, e dá à StepFun flexibilidade: podem fazer parceria com empresas maiores para distribuição enquanto mantêm controle sobre sua tecnologia central.