Token : Définition et signification — Wiki IA

Créer des vidéos à partir de descriptions textuelles, d'images ou d'autres vidéos en utilisant des modèles d'IA. Sora (OpenAI), Kling (Kuaishou), Runway Gen-3, Vidu et d'autres génèrent des vidéos à partir de prompts comme « un plan drone survolant un récif corallien ». La technologie étend la génération d'images à la dimension temporelle, ajoutant le défi de maintenir la cohérence entre les images et de générer un mouvement réaliste.

Pourquoi c'est important

La génération de vidéos est la frontière de l'IA générative — la modalité la plus difficile et celle avec le plus grand potentiel commercial. Elle commence à transformer le cinéma, la publicité, les réseaux sociaux et l'éducation. L'écart de qualité entre l'IA et la vidéo professionnelle se réduit rapidement, les modèles actuels produisant des clips de 5 à 15 secondes parfois indiscernables de vraies séquences.

En profondeur

La plupart des modèles de génération vidéo étendent l'architecture DiT (Diffusion Transformer) à la 3D : au lieu de traiter des patches d'image 2D, ils traitent des patches 3D qui couvrent les deux dimensions spatiales et le temps. Le modèle apprend à débruiter des volumes vidéo entiers, maintenant la cohérence spatiale (les objets ont le même aspect d'une image à l'autre) et la cohérence temporelle (le mouvement est fluide et physiquement plausible). Le conditionnement fonctionne de manière similaire aux images : les embeddings textuels guident la génération via l'attention croisée.

Le défi computationnel

La génération vidéo est extraordinairement gourmande en calcul. Une vidéo de 10 secondes à 30 fps représente 300 images — 300x le travail d'une seule image, plus le défi supplémentaire de la cohérence temporelle. Entraîner des modèles vidéo nécessite des jeux de données vidéo (plus difficiles à curater que les jeux de données d'images) et des clusters GPU qui font passer l'entraînement de LLM pour modeste. Ce besoin en calcul est la raison pour laquelle la qualité de génération vidéo est en retard d'environ 2 ans par rapport à la génération d'images.

Limitations actuelles

Les modèles actuels ont du mal avec : les longues durées (la plupart plafonnent à 5–15 secondes), les interactions complexes multi-objets, les mouvements qui défient la physique (les objets flottent ou se déforment parfois), l'identité cohérente des personnages entre les plans, et le contrôle textuel fin. La technologie est impressionnante pour le b-roll, les plans d'établissement et l'exploration créative, mais pas encore assez fiable pour le cinéma narratif où les actions spécifiques, les expressions et le timing comptent.

Génération de vidéos

Pourquoi c'est important

En profondeur

Le défi computationnel

Limitations actuelles

Concepts connexes