A Vidu surgiu da Shengshu Technology, uma startup sediada em Pequim fundada em 2024 por uma equipe de pesquisadores com raízes profundas nos laboratórios de IA da Universidade Tsinghua. O cofundador da empresa, Zhu Jun, havia passado anos trabalhando em modelos generativos na Tsinghua antes de dar o salto para a comercialização. Desde o início, a Shengshu posicionou a Vidu não como uma plataforma de IA de uso geral, mas como um motor de geração de vídeo focado — uma aposta de que a próxima fronteira em IA generativa seria imagens em movimento, não imagens estáticas. Sua primeira demonstração pública no início de 2024 chamou atenção na imprensa tech chinesa, chegando poucas semanas após a revelação do Sora pela OpenAI e demonstrando que laboratórios chineses não estavam muito atrás.
O que diferenciou a Vidu desde o primeiro dia foi sua ênfase em coerência física. Enquanto muitos modelos de geração de vídeo iniciais produziam resultados oníricos e fluidos que desmoronavam quando objetos interagiam entre si, as saídas da Vidu mostraram uma compreensão notavelmente melhor da física — objetos tinham peso, sombras se moviam corretamente e o movimento de câmera parecia intencional em vez de aleatório. A arquitetura subjacente usa uma abordagem de diffusion transformer, treinada em datasets de vídeo em larga escala que a Shengshu montou parcialmente através de parcerias com plataformas de conteúdo chinesas. Seus modelos suportam geração multi-shot com personagens consistentes, um recurso que moveu a Vidu de ferramenta de curiosidade para algo que criadores poderiam realmente usar para narrativas curtas.
A Vidu ocupa uma posição interessante no cenário de vídeo com IA. Na China, compete com o Kling (da Kuaishou), o Wan (da Alibaba) e um punhado de outros esforços bem financiados. Internacionalmente, enfrenta o Runway, Luma e Pika. A Shengshu adotou uma estratégia API-first ao lado de seu produto voltado ao consumidor, disponibilizando a Vidu para desenvolvedores construindo sobre geração de vídeo. Os preços têm sido agressivos, ficando abaixo dos concorrentes ocidentais enquanto oferece qualidade comparável ou superior em muitos benchmarks. A empresa levantou financiamento significativo em 2024, com avaliação reportada acima de US$ 300 milhões, com apoio da Zhipu AI e outros investidores chineses notáveis.
A Shengshu tem empurrado a Vidu em direção a geração de vídeos mais longos, resoluções mais altas e melhor controlabilidade — os três eixos que mais importam para uso profissional. Também investiram em capacidades de imagem-para-vídeo e vídeo-para-vídeo, reconhecendo que a maioria dos workflows reais começa com material de referência em vez de prompts de texto sozinhos. A questão mais ampla para a Vidu é se consegue romper internacionalmente apesar dos ventos geolíticos contrários que enfrentam empresas de IA chinesas, ou se permanecerá principalmente uma potência doméstica. De qualquer forma, a qualidade técnica de suas saídas lhe rendeu um lugar à mesa na conversa global sobre vídeo com IA.