La plupart des modèles de génération vidéo étendent l'architecture DiT (Diffusion Transformer) à la 3D : au lieu de traiter des patches d'image 2D, ils traitent des patches 3D qui couvrent les deux dimensions spatiales et le temps. Le modèle apprend à débruiter des volumes vidéo entiers, maintenant la cohérence spatiale (les objets ont le même aspect d'une image à l'autre) et la cohérence temporelle (le mouvement est fluide et physiquement plausible). Le conditionnement fonctionne de manière similaire aux images : les embeddings textuels guident la génération via l'attention croisée.
La génération vidéo est extraordinairement gourmande en calcul. Une vidéo de 10 secondes à 30 fps représente 300 images — 300x le travail d'une seule image, plus le défi supplémentaire de la cohérence temporelle. Entraîner des modèles vidéo nécessite des jeux de données vidéo (plus difficiles à curater que les jeux de données d'images) et des clusters GPU qui font passer l'entraînement de LLM pour modeste. Ce besoin en calcul est la raison pour laquelle la qualité de génération vidéo est en retard d'environ 2 ans par rapport à la génération d'images.
Les modèles actuels ont du mal avec : les longues durées (la plupart plafonnent à 5–15 secondes), les interactions complexes multi-objets, les mouvements qui défient la physique (les objets flottent ou se déforment parfois), l'identité cohérente des personnages entre les plans, et le contrôle textuel fin. La technologie est impressionnante pour le b-roll, les plans d'établissement et l'exploration créative, mais pas encore assez fiable pour le cinéma narratif où les actions spécifiques, les expressions et le timing comptent.