Vidu surgió de Shengshu Technology, una startup con sede en Beijing fundada en 2024 por un equipo de investigadores con raíces profundas en los laboratorios de IA de la Universidad Tsinghua. El cofundador de la empresa, Zhu Jun, había pasado años trabajando en modelos generativos en Tsinghua antes de dar el salto a la comercialización. Desde el inicio, Shengshu posicionó a Vidu no como una jugada de IA de propósito general sino como un motor de generación de video enfocado — una apuesta de que la próxima frontera en IA generativa eran las imágenes en movimiento, no las imágenes estáticas. Su primera demostración pública a principios de 2024 llamó la atención en la prensa tecnológica china, llegando apenas semanas después de la revelación de Sora por OpenAI y demostrando que los laboratorios chinos no estaban muy atrás.
Lo que diferenció a Vidu desde el primer día fue su énfasis en la coherencia física. Mientras muchos modelos tempranos de generación de video producían resultados oníricos y fluidos que se desmoronaban cuando los objetos interactuaban entre sí, las salidas de Vidu mostraron una comprensión notablemente mejor de la física — los objetos tenían peso, las sombras se movían correctamente y el movimiento de cámara se sentía intencional en lugar de aleatorio. La arquitectura subyacente usa un enfoque de diffusion transformer, entrenado con datasets de video a gran escala que Shengshu ensambló en parte a través de alianzas con plataformas de contenido chinas. Sus modelos soportan generación multi-toma con personajes consistentes, una función que movió a Vidu de una herramienta de novedad hacia algo que los creadores realmente podían usar para narrativa de formato corto.
Vidu ocupa una posición interesante en el panorama del video con IA. En China, compite con Kling (de Kuaishou), Wan (de Alibaba) y un puñado de otros esfuerzos bien financiados. Internacionalmente, se enfrenta a Runway, Luma y Pika. Shengshu ha seguido una estrategia API-first junto con su producto orientado al consumidor, haciendo a Vidu disponible para desarrolladores que construyen sobre la generación de video. Los precios han sido agresivos, por debajo de los competidores occidentales mientras ofrece calidad comparable o mejor en muchos benchmarks. La empresa recaudó financiamiento significativo en 2024, reportadamente con una valuación superior a $300 millones, con respaldo de Zhipu AI y otros inversores chinos notables.
Shengshu ha estado empujando a Vidu hacia generación de mayor duración, resoluciones más altas y mejor controlabilidad — los tres ejes que más importan para uso profesional. También han invertido en capacidades de imagen-a-video y video-a-video, reconociendo que la mayoría de los flujos de trabajo reales comienzan con material de referencia en lugar de solo prompts de texto. La pregunta más amplia para Vidu es si puede abrirse paso internacionalmente a pesar de los vientos geopolíticos en contra que enfrentan las empresas chinas de IA, o si permanecerá principalmente como una potencia doméstica. De cualquier manera, la calidad técnica de sus resultados les ha ganado un lugar en la mesa de la conversación global sobre video con IA.