Zubnet AIAprenderWiki › Vidu
Empresas

Vidu

Também conhecido como: Geração de vídeo Vidu, coerência de longa duração
Plataforma de geração de vídeo da Shengshu Technology, produzindo alguns dos vídeos gerados por IA mais fisicamente coerentes. Ganhou atenção pela forte qualidade de movimento e consistência multi-shot que rivaliza com concorrentes ocidentais.

Por que isso importa

A Vidu demonstrou que laboratórios de IA chineses podiam igualar a qualidade de geração de vídeo ocidental meses após a revelação do Sora, reconfigurando suposições sobre onde a vanguarda em vídeo com IA realmente está. Seu foco em coerência física e consistência multi-shot empurrou todo o campo para frente, forçando concorrentes a priorizar realismo sobre apelo visual. Para o mercado mais amplo de vídeo com IA, o preço agressivo da Vidu e a disponibilidade de API também ajudaram a reduzir custos e aumentar acesso para desenvolvedores no mundo todo.

Em profundidade

A Vidu surgiu da Shengshu Technology, uma startup sediada em Pequim fundada em 2024 por uma equipe de pesquisadores com raízes profundas nos laboratórios de IA da Universidade Tsinghua. O cofundador da empresa, Zhu Jun, havia passado anos trabalhando em modelos generativos na Tsinghua antes de dar o salto para a comercialização. Desde o início, a Shengshu posicionou a Vidu não como uma plataforma de IA de uso geral, mas como um motor de geração de vídeo focado — uma aposta de que a próxima fronteira em IA generativa seria imagens em movimento, não imagens estáticas. Sua primeira demonstração pública no início de 2024 chamou atenção na imprensa tech chinesa, chegando poucas semanas após a revelação do Sora pela OpenAI e demonstrando que laboratórios chineses não estavam muito atrás.

A tecnologia

O que diferenciou a Vidu desde o primeiro dia foi sua ênfase em coerência física. Enquanto muitos modelos de geração de vídeo iniciais produziam resultados oníricos e fluidos que desmoronavam quando objetos interagiam entre si, as saídas da Vidu mostraram uma compreensão notavelmente melhor da física — objetos tinham peso, sombras se moviam corretamente e o movimento de câmera parecia intencional em vez de aleatório. A arquitetura subjacente usa uma abordagem de diffusion transformer, treinada em datasets de vídeo em larga escala que a Shengshu montou parcialmente através de parcerias com plataformas de conteúdo chinesas. Seus modelos suportam geração multi-shot com personagens consistentes, um recurso que moveu a Vidu de ferramenta de curiosidade para algo que criadores poderiam realmente usar para narrativas curtas.

Posicionamento de mercado e competição

A Vidu ocupa uma posição interessante no cenário de vídeo com IA. Na China, compete com o Kling (da Kuaishou), o Wan (da Alibaba) e um punhado de outros esforços bem financiados. Internacionalmente, enfrenta o Runway, Luma e Pika. A Shengshu adotou uma estratégia API-first ao lado de seu produto voltado ao consumidor, disponibilizando a Vidu para desenvolvedores construindo sobre geração de vídeo. Os preços têm sido agressivos, ficando abaixo dos concorrentes ocidentais enquanto oferece qualidade comparável ou superior em muitos benchmarks. A empresa levantou financiamento significativo em 2024, com avaliação reportada acima de US$ 300 milhões, com apoio da Zhipu AI e outros investidores chineses notáveis.

O que vem a seguir

A Shengshu tem empurrado a Vidu em direção a geração de vídeos mais longos, resoluções mais altas e melhor controlabilidade — os três eixos que mais importam para uso profissional. Também investiram em capacidades de imagem-para-vídeo e vídeo-para-vídeo, reconhecendo que a maioria dos workflows reais começa com material de referência em vez de prompts de texto sozinhos. A questão mais ampla para a Vidu é se consegue romper internacionalmente apesar dos ventos geolíticos contrários que enfrentam empresas de IA chinesas, ou se permanecerá principalmente uma potência doméstica. De qualquer forma, a qualidade técnica de suas saídas lhe rendeu um lugar à mesa na conversa global sobre vídeo com IA.

Conceitos relacionados

← Todos os termos
← Banco de dados vetorial IA de voz →
ESC