Vidu a émergé de Shengshu Technology, une entreprise en démarrage basée à Pékin fondée en 2024 par une équipe de chercheurs profondément ancrés dans les laboratoires d'IA de l'Université Tsinghua. Le cofondateur de l'entreprise, Zhu Jun, avait passé des années à travailler sur des modèles génératifs à Tsinghua avant de faire le saut vers la commercialisation. Dès le départ, Shengshu a positionné Vidu non pas comme un projet d'IA polyvalent mais comme un moteur de génération vidéo ciblé — un pari que la prochaine frontière de l'IA générative serait l'image animée, pas l'image fixe. Leur première démonstration publique début 2024 a fait tourner les têtes dans la presse technologique chinoise, survenant à peine quelques semaines après la révélation de Sora par OpenAI et démontrant que les laboratoires chinois n'étaient pas loin derrière.
Ce qui a distingué Vidu dès le premier jour, c'est l'accent mis sur la cohérence physique. Alors que de nombreux modèles de génération vidéo précoces produisaient des résultats oniriques et fluides qui s'effondraient lorsque les objets interagissaient entre eux, les résultats de Vidu montraient une compréhension notablement meilleure de la physique — les objets avaient du poids, les ombres bougeaient correctement et le mouvement de caméra semblait intentionnel plutôt qu'aléatoire. L'architecture sous-jacente utilise une approche de transformer de diffusion, entraînée sur des ensembles de données vidéo à grande échelle que Shengshu a assemblés en partie grâce à des partenariats avec des plateformes de contenu chinoises. Leurs modèles prennent en charge la génération multi-plans avec des personnages cohérents, une fonctionnalité qui a fait passer Vidu d'un outil de curiosité à quelque chose que les créateurs pouvaient réellement utiliser pour la narration courte.
Vidu occupe une position intéressante dans le paysage de la vidéo IA. En Chine, il rivalise avec Kling (de Kuaishou), Wan (d'Alibaba) et une poignée d'autres efforts bien financés. À l'international, il affronte Runway, Luma et Pika. Shengshu a poursuivi une stratégie API d'abord en parallèle de son produit grand public, rendant Vidu disponible aux développeurs qui construisent par-dessus la génération vidéo. La tarification a été agressive, sous-cotant les concurrents occidentaux tout en offrant une qualité comparable ou supérieure sur de nombreux bancs d'essai. L'entreprise a levé un financement significatif en 2024, rapporté à une valorisation dépassant 300 millions de dollars, avec le soutien de Zhipu AI et d'autres investisseurs chinois notables.
Shengshu pousse Vidu vers la génération de formats plus longs, de résolutions plus élevées et d'une meilleure contrôlabilité — les trois axes qui comptent le plus pour un usage professionnel. Ils ont également investi dans les capacités image-vers-vidéo et vidéo-vers-vidéo, reconnaissant que la plupart des flux de travail réels commencent avec du matériel de référence plutôt qu'avec des instructions textuelles seules. La question plus large pour Vidu est de savoir s'il peut percer à l'international malgré les vents contraires géopolitiques auxquels font face les entreprises d'IA chinoises, ou s'il restera principalement une puissance domestique. Quoi qu'il en soit, la qualité technique de ses résultats lui a valu une place à la table dans la conversation mondiale sur la vidéo IA.