StepFun (oficialmente Jieyue Xingchen, que significa "paso hacia las estrellas") fue fundada en 2023 por Jiang Daxin, un ex investigador senior de Microsoft Research Asia. Jiang habia pasado anos trabajando en modelos de lenguaje a gran escala y sistemas multimodales antes de decidir que era el momento adecuado para construir una empresa de IA independiente en Shanghai. StepFun recaudo aproximadamente $100 millones en sus rondas iniciales de inversores como Tencent, Sequoia China y Zhongguancun Science City — suficiente para asegurar recursos de GPU significativos en un mercado donde el computo se estaba volviendo cada vez mas escaso. Desde el primer dia, la empresa apunto a construir modelos fundacionales de proposito general que pudieran competir internacionalmente, no solo dentro del mercado domestico chino. Esa ambicion era inusual para una startup de apenas meses de edad, pero StepFun la respaldo con resultados de benchmark sorprendentemente solidos.
La linea de modelos de StepFun ha evolucionado rapidamente. La serie Step-1, lanzada en etapas a lo largo de 2024, demostro que una startup bien financiada podia igualar o superar algunos de los resultados de organizaciones mucho mas grandes. Step-1V, su modelo vision-lenguaje, publico puntuaciones competitivas en benchmarks multimodales en un momento en que el campo aun estaba dominado por Google, OpenAI y un punado de gigantes chinos. Step-2, lanzado despues, avanzo mas en razonamiento de multiples pasos y uso de herramientas. Lo que distinguio a StepFun no fue ningun avance individual sino la consistencia: cada lanzamiento mostro mejoras genuinas, y los modelos se desempenaron bien tanto en tareas en chino como en ingles, sugiriendo que los datos de entrenamiento y la metodologia fueron ensamblados de forma reflexiva en lugar de simplemente lanzar mas computo a un dataset mas grande. La empresa tambien libero modelos en Hugging Face y a traves de su propia API, haciendolos accesibles a la comunidad internacional de desarrolladores.
Mientras muchas startups chinas de IA se enfocaron inicialmente en modelos de lenguaje solo de texto, StepFun avanzo agresivamente en territorio multimodal. Sus modelos Step-1.5V y subsiguientes de vision podian procesar imagenes, graficos y documentos junto con texto, apuntando al nicho cada vez mas importante del razonamiento visual. Mas recientemente, StepFun entro al espacio de generacion de video con Step Video, uniendose a una carrera concurrida pero de alto perfil junto a Kling, Vidu y los diversos modelos de video Hunyuan. El trabajo en video es notable porque requiere un tipo fundamentalmente diferente de infraestructura y experiencia — consistencia temporal, generacion consciente de la fisica y la capacidad de manejar output de larga duracion. La disposicion de StepFun para abordar esto junto a su trabajo principal en modelos de lenguaje sugiere o una confianza extraordinaria o una ambicion extraordinaria, posiblemente ambas.
La escena de startups de IA en China en 2023-2025 ha sido descrita como una "guerra de cien modelos", con docenas de empresas quemando miles de millones de yuanes persiguiendo el mismo premio. La estrategia de StepFun ha sido mantenerse tecnicamente competitiva mientras permanece esbelta en relacion con pares como Moonshot AI o Zhipu AI. La empresa ha sido menos agresiva con productos orientados al consumidor que algunos competidores, enfocandose en cambio en acceso por API y herramientas para desarrolladores — una apuesta a que el dinero real en IA fluira a traves de la integracion empresarial en lugar de suscripciones a chatbots. Esto refleja el enfoque de empresas como Mistral en Europa, y le da a StepFun flexibilidad: pueden asociarse con empresas mas grandes para la distribucion mientras mantienen control sobre su tecnologia central. La pregunta es si una startup relativamente joven puede sostener la inversion en computo necesaria para mantenerse en la frontera a medida que el costo de las corridas de entrenamiento escala a cientos de millones de dolares.