La mayoría de los modelos de generación de video extienden la arquitectura DiT (Diffusion Transformer) a 3D: en lugar de procesar parches de imagen 2D, procesan parches 3D que abarcan ambas dimensiones espaciales y el tiempo. El modelo aprende a eliminar ruido de volúmenes de video completos, manteniendo consistencia espacial (los objetos se ven igual entre fotogramas) y consistencia temporal (el movimiento es suave y físicamente plausible). El condicionamiento funciona de forma similar a las imágenes: los embeddings de texto guían la generación vía atención cruzada.
La generación de video es extraordinariamente intensiva en cómputo. Un video de 10 segundos a 30fps son 300 fotogramas — 300x el trabajo de una sola imagen, más el desafío adicional de la coherencia temporal. Entrenar modelos de video requiere datasets de video (más difíciles de curar que datasets de imágenes) y clusters de GPUs que hacen que el entrenamiento de LLMs parezca modesto. Este requerimiento de cómputo es por qué la calidad de generación de video va detrás de la generación de imágenes por aproximadamente 2 años.
Los modelos actuales tienen dificultades con: duraciones largas (la mayoría se limita a 5–15 segundos), interacciones complejas de múltiples objetos, movimiento que desafía la física (los objetos a veces flotan o se deforman), identidad consistente del personaje entre cortes, y control fino de texto. La tecnología es impresionante para b-roll, tomas de establecimiento y exploración creativa, pero aún no es lo suficientemente fiable para producción narrativa cinematográfica donde las acciones, expresiones y timing específicos importan.