Generación de Video: Definición y significado — Wiki de IA

Crear video a partir de descripciones de texto, imágenes u otros videos usando modelos de IA. Sora (OpenAI), Kling (Kuaishou), Runway Gen-3, Vidu y otros generan videos a partir de prompts como "una toma de dron volando sobre un arrecife de coral". La tecnología extiende la generación de imágenes a la dimensión temporal, añadiendo el desafío de mantener la consistencia entre fotogramas y generar movimiento realista.

Por qué importa

La generación de video es la frontera de la IA generativa — la modalidad más difícil y la de mayor potencial comercial. Está comenzando a transformar la producción cinematográfica, la publicidad, las redes sociales y la educación. La brecha de calidad entre la IA y el video profesional se está cerrando rápidamente, con modelos actuales produciendo clips de 5–15 segundos que a veces son indistinguibles de metraje real.

En profundidad

La mayoría de los modelos de generación de video extienden la arquitectura DiT (Diffusion Transformer) a 3D: en lugar de procesar parches de imagen 2D, procesan parches 3D que abarcan ambas dimensiones espaciales y el tiempo. El modelo aprende a eliminar ruido de volúmenes de video completos, manteniendo consistencia espacial (los objetos se ven igual entre fotogramas) y consistencia temporal (el movimiento es suave y físicamente plausible). El condicionamiento funciona de forma similar a las imágenes: los embeddings de texto guían la generación vía atención cruzada.

El Desafío del Cómputo

La generación de video es extraordinariamente intensiva en cómputo. Un video de 10 segundos a 30fps son 300 fotogramas — 300x el trabajo de una sola imagen, más el desafío adicional de la coherencia temporal. Entrenar modelos de video requiere datasets de video (más difíciles de curar que datasets de imágenes) y clusters de GPUs que hacen que el entrenamiento de LLMs parezca modesto. Este requerimiento de cómputo es por qué la calidad de generación de video va detrás de la generación de imágenes por aproximadamente 2 años.

Limitaciones Actuales

Los modelos actuales tienen dificultades con: duraciones largas (la mayoría se limita a 5–15 segundos), interacciones complejas de múltiples objetos, movimiento que desafía la física (los objetos a veces flotan o se deforman), identidad consistente del personaje entre cortes, y control fino de texto. La tecnología es impresionante para b-roll, tomas de establecimiento y exploración creativa, pero aún no es lo suficientemente fiable para producción narrativa cinematográfica donde las acciones, expresiones y timing específicos importan.

Generación de Video

Por qué importa

En profundidad

El Desafío del Cómputo

Limitaciones Actuales

Conceptos relacionados