StepFun : Définition et signification — Wiki IA

Entreprise chinoise d'IA en démarrage qui développe de grands modèles de langage et multimodaux compétitifs. Leur série Step a démontré de solides performances sur les bancs d'essai internationaux, soutenue par un investissement significatif en capacité de calcul.

Pourquoi c’est important

StepFun est la preuve que l'écosystème chinois de l'IA peut produire de sérieux concurrents en partant de zéro, et pas seulement à partir de géants technologiques existants. Leurs modèles Step surpassent constamment leur catégorie sur les bancs d'essai internationaux, et leur expansion rapide vers le multimodal et la génération vidéo montre que des entreprises en démarrage bien organisées peuvent couvrir un large éventail de capacités avec des ressources relativement modestes. Pour le marché mondial de l'IA, StepFun représente le type d'entreprise qui rend impossible d'ignorer la scène indépendante des entreprises en démarrage d'IA en Chine — techniquement forte, orientée vers l'international et se déplaçant assez vite pour maintenir la pression sur des concurrents bien plus importants.

En profondeur

StepFun (officiellement Jieyue Xingchen, signifiant « pas vers les étoiles ») a été fondée en 2023 par Jiang Daxin, ancien chercheur principal à Microsoft Research Asia. Jiang avait passé des années à travailler sur des modèles de langage à grande échelle et des systèmes multimodaux avant de décider que le moment était venu de bâtir une entreprise d'IA indépendante à Shanghai. StepFun a levé environ 100 millions de dollars dans ses premières rondes de financement auprès d'investisseurs incluant Tencent, Sequoia China et Zhongguancun Science City — assez pour sécuriser des ressources GPU significatives dans un marché où la capacité de calcul devenait de plus en plus rare. Dès le premier jour, l'entreprise visait à construire des modèles fondation polyvalents capables de rivaliser à l'international, pas seulement sur le marché intérieur chinois. Cette ambition était inhabituelle pour une entreprise en démarrage à peine vieille de quelques mois, mais StepFun l'a soutenue avec des résultats de bancs d'essai étonnamment solides.

La famille de modèles Step

La gamme de modèles de StepFun a évolué rapidement. La série Step-1, publiée par étapes tout au long de 2024, a démontré qu'une entreprise en démarrage bien dotée en ressources pouvait égaler ou dépasser certains résultats d'organisations beaucoup plus grandes. Step-1V, leur modèle vision-langage, a affiché des scores compétitifs sur les bancs d'essai multimodaux à une époque où le domaine était encore dominé par Google, OpenAI et une poignée de géants chinois. Step-2, publié par la suite, a poussé plus loin dans le raisonnement en plusieurs étapes et l'utilisation d'outils. Ce qui distinguait StepFun n'était pas une percée unique, mais la constance : chaque publication montrait une amélioration véritable, et les modèles performaient bien à la fois en chinois et en anglais, suggérant que les données d'entraînement et la méthodologie avaient été soigneusement assemblées plutôt que de simplement jeter plus de calcul sur un jeu de données plus gros. L'entreprise a également publié des modèles sur Hugging Face et via sa propre API, les rendant accessibles à la communauté internationale de développeurs.

Ambitions multimodales et vidéo

Alors que de nombreuses entreprises en démarrage chinoises d'IA se sont d'abord concentrées sur les modèles de langage textuels, StepFun a avancé agressivement vers le territoire multimodal. Leurs modèles Step-1.5V et les modèles de vision subséquents pouvaient traiter images, graphiques et documents aux côtés du texte, ciblant le créneau de plus en plus important du raisonnement visuel. Plus récemment, StepFun est entrée dans l'espace de la génération vidéo avec Step Video, rejoignant une course encombrée mais très médiatisée aux côtés de Kling, Vidu et des divers modèles vidéo Hunyuan. Le travail vidéo est notable parce qu'il nécessite un type fondamentalement différent d'infrastructure et d'expertise — cohérence temporelle, génération consciente de la physique et capacité à gérer des résultats de longue durée. La volonté de StepFun de s'attaquer à cela parallèlement à leur travail de base sur les modèles de langage suggère soit une confiance extraordinaire, soit une ambition extraordinaire, voire les deux.

Positionnement dans un marché encombré

La scène des entreprises en démarrage d'IA en Chine en 2023-2025 a été décrite comme une « guerre des cent modèles », avec des dizaines d'entreprises brûlant des milliards de yuans en poursuivant le même prix. La stratégie de StepFun a été de rester techniquement compétitive tout en restant allégée par rapport à des pairs comme Moonshot AI ou Zhipu AI. L'entreprise a été moins agressive sur les produits destinés aux consommateurs que certains concurrents, se concentrant plutôt sur l'accès API et les outils pour développeurs — un pari que le vrai argent en IA passera par l'intégration en entreprise plutôt que par les abonnements à des chatbots. Cela reflète l'approche d'entreprises comme Mistral en Europe et donne à StepFun de la flexibilité : ils peuvent s'associer à de plus grandes entreprises pour la distribution tout en gardant le contrôle de leur technologie fondamentale. La question est de savoir si une entreprise en démarrage relativement jeune peut soutenir l'investissement en calcul nécessaire pour rester à la frontière alors que le coût des séances d'entraînement grimpe dans les centaines de millions de dollars.

StepFun

Pourquoi c’est important

En profondeur

La famille de modèles Step

Ambitions multimodales et vidéo

Positionnement dans un marché encombré

Concepts connexes