Zubnet AIApprendreWiki › Vidu
Compagnies

Vidu

Aussi appelé : Génération vidéo Vidu, cohérence longue durée
Plateforme de génération vidéo de Shengshu Technology, produisant certaines des vidéos générées par IA les plus physiquement cohérentes. A attiré l'attention pour la qualité de mouvement solide et la cohérence multi-plans qui rivalise avec les concurrents occidentaux.

Pourquoi c’est important

Vidu a démontré que les laboratoires chinois d'IA pouvaient égaler la qualité de génération vidéo occidentale en quelques mois seulement après la révélation de Sora, reformulant les hypothèses sur l'endroit où se situe réellement la fine pointe en vidéo IA. Leur accent sur la cohérence physique et la cohérence multi-plans a fait avancer tout le domaine, forçant les concurrents à prioriser le réalisme plutôt que le simple attrait visuel. Pour le marché plus large de la vidéo IA, la tarification agressive de Vidu et la disponibilité de son API ont également contribué à faire baisser les coûts et à accroître l'accès pour les développeurs du monde entier.

En profondeur

Vidu a émergé de Shengshu Technology, une entreprise en démarrage basée à Pékin fondée en 2024 par une équipe de chercheurs profondément ancrés dans les laboratoires d'IA de l'Université Tsinghua. Le cofondateur de l'entreprise, Zhu Jun, avait passé des années à travailler sur des modèles génératifs à Tsinghua avant de faire le saut vers la commercialisation. Dès le départ, Shengshu a positionné Vidu non pas comme un projet d'IA polyvalent mais comme un moteur de génération vidéo ciblé — un pari que la prochaine frontière de l'IA générative serait l'image animée, pas l'image fixe. Leur première démonstration publique début 2024 a fait tourner les têtes dans la presse technologique chinoise, survenant à peine quelques semaines après la révélation de Sora par OpenAI et démontrant que les laboratoires chinois n'étaient pas loin derrière.

La technologie

Ce qui a distingué Vidu dès le premier jour, c'est l'accent mis sur la cohérence physique. Alors que de nombreux modèles de génération vidéo précoces produisaient des résultats oniriques et fluides qui s'effondraient lorsque les objets interagissaient entre eux, les résultats de Vidu montraient une compréhension notablement meilleure de la physique — les objets avaient du poids, les ombres bougeaient correctement et le mouvement de caméra semblait intentionnel plutôt qu'aléatoire. L'architecture sous-jacente utilise une approche de transformer de diffusion, entraînée sur des ensembles de données vidéo à grande échelle que Shengshu a assemblés en partie grâce à des partenariats avec des plateformes de contenu chinoises. Leurs modèles prennent en charge la génération multi-plans avec des personnages cohérents, une fonctionnalité qui a fait passer Vidu d'un outil de curiosité à quelque chose que les créateurs pouvaient réellement utiliser pour la narration courte.

Positionnement et concurrence

Vidu occupe une position intéressante dans le paysage de la vidéo IA. En Chine, il rivalise avec Kling (de Kuaishou), Wan (d'Alibaba) et une poignée d'autres efforts bien financés. À l'international, il affronte Runway, Luma et Pika. Shengshu a poursuivi une stratégie API d'abord en parallèle de son produit grand public, rendant Vidu disponible aux développeurs qui construisent par-dessus la génération vidéo. La tarification a été agressive, sous-cotant les concurrents occidentaux tout en offrant une qualité comparable ou supérieure sur de nombreux bancs d'essai. L'entreprise a levé un financement significatif en 2024, rapporté à une valorisation dépassant 300 millions de dollars, avec le soutien de Zhipu AI et d'autres investisseurs chinois notables.

La suite

Shengshu pousse Vidu vers la génération de formats plus longs, de résolutions plus élevées et d'une meilleure contrôlabilité — les trois axes qui comptent le plus pour un usage professionnel. Ils ont également investi dans les capacités image-vers-vidéo et vidéo-vers-vidéo, reconnaissant que la plupart des flux de travail réels commencent avec du matériel de référence plutôt qu'avec des instructions textuelles seules. La question plus large pour Vidu est de savoir s'il peut percer à l'international malgré les vents contraires géopolitiques auxquels font face les entreprises d'IA chinoises, ou s'il restera principalement une puissance domestique. Quoi qu'il en soit, la qualité technique de ses résultats lui a valu une place à la table dans la conversation mondiale sur la vidéo IA.

Concepts connexes

← Tous les termes
← Base de données vectorielle IA vocale →
ESC