Wan-AI no es una startup independiente — es la apuesta dedicada de Alibaba en generación de video, operando bajo el paraguas de investigación Tongyi (anteriormente Academia DAMO) en Hangzhou. La iniciativa se lanzó en 2024 cuando Alibaba reconoció que los modelos de video open-weights podían hacer por la generación de video lo que Qwen había hecho por los modelos de lenguaje: establecer a Alibaba como el proveedor preferido para desarrolladores que quieren capacidades de última generación sin dependencia de un proveedor. Los modelos Wan fueron lanzados en Hugging Face y ModelScope con licencias permisivas, convirtiéndolos instantáneamente en algunos de los modelos de generación de video de alta calidad más accesibles disponibles en cualquier lugar.
La decisión de Alibaba de lanzar Wan como open-weights fue estratégica, no caritativa. Al hacer que modelos de video poderosos estén disponibles libremente, crearon un ecosistema de desarrolladores, investigadores y empresas construyendo sobre el stack tecnológico de Alibaba. Esto impulsa tráfico hacia Alibaba Cloud, aumenta la participación mental en la comunidad de desarrolladores, y posiciona a Alibaba como el proveedor de infraestructura por defecto para cargas de trabajo de video con IA en Asia y más allá. Los modelos Wan vienen en múltiples tamaños — desde versiones ligeras que pueden correr en GPUs de consumo hasta variantes más grandes que rivalizan con las mejores ofertas de código cerrado — dando a los desarrolladores la flexibilidad de elegir según su presupuesto de cómputo y requisitos de calidad.
La familia de modelos Wan usa una arquitectura de diffusion transformer con un codificador de texto derivado de los modelos de lenguaje Qwen de Alibaba, creando una integración estrecha entre la comprensión de texto y la generación visual. Los resultados son particularmente fuertes en adherencia a prompts y composición de escenas, áreas donde muchos modelos de video tienen dificultades. Wan soporta generación de texto-a-video, imagen-a-video y video-a-video, y la naturaleza open-weights significa que la comunidad ha construido rápidamente fine-tunes LoRA, flujos de trabajo personalizados en ComfyUI y adaptaciones especializadas para todo, desde anime hasta visualización arquitectónica. Este efecto de ecosistema es posiblemente más valioso que el modelo base en sí.
Wan se encuentra en la intersección de dos batallas competitivas. En el espacio de video open-weights, compite con los modelos de video de Stability AI y varios esfuerzos comunitarios. En el mercado chino más amplio de video con IA, compite con Kling, Vidu y otros — aunque el enfoque de Alibaba es fundamentalmente diferente porque el modelo es el marketing, no el producto. El producto real es el cómputo de Alibaba Cloud. Este posicionamiento significa que Wan puede permitirse ser más generoso con los lanzamientos de modelos que las startups independientes que necesitan monetizar el modelo directamente, dándole una ventaja estructural en la carrera open-source que es difícil de igualar para jugadores más pequeños.