Twelve Labs: Definição e significado — Wiki de IA

Empresa de compreensão de vídeo que permite pesquisar, analisar e gerar conteúdo a partir de vídeo usando linguagem natural. Pense nisso como "RAG para vídeo" — seus modelos entendem o que acontece em um vídeo da mesma forma que LLMs entendem texto.

Por que isso importa

A Twelve Labs está construindo a infraestrutura fundamental para tornar o conteúdo de vídeo do mundo legível por máquinas. Numa era em que vídeo domina a comunicação digital mas permanece amplamente não pesquisável por IA, seus modelos especificamente construídos de embedding e geração resolvem um problema que mesmo os maiores laboratórios de fronteira abordaram apenas superficialmente.

Em profundidade

A Twelve Labs foi fundada em 2021 por Jae Lee e Aiden Lee, que viram uma lacuna massiva no cenário de IA: enquanto modelos baseados em texto estavam avançando em velocidade ver tiginosa, vídeo permanecia teimosamente opaco para máquinas. Você podia pedir a um LLM para resumir um documento em segundos, mas perguntar o que aconteceu no minuto 14:32 de um vídeo de duas horas? Impossível. A equipe fundadora, com raízes em pesquisa de visão computacional e experiência em empresas como Google e Samsung, reconheceu que compreensão de vídeo exigia uma abordagem fundamentalmente diferente de acoplar reconhecimento de imagem a uma linha do tempo.

Pegasus e Marengo: A Stack de Produtos

Os produtos centrais da Twelve Labs são Pegasus e Marengo, cada um abordando uma peça diferente do problema de inteligência de vídeo. Marengo é seu modelo de embedding de vídeo — converte conteúdo de vídeo em representações vetoriais ricas que permitem busca semântica em bibliotecas massivas de vídeo. Pegasus é seu modelo de geração video-to-text, capaz de resumir, descrever e responder perguntas sobre conteúdo de vídeo com uma especificidade que modelos genéricos de visão-linguagem lutam para igualar. Juntos, esses modelos alimentam uma API que permite a desenvolvedores construir aplicações como gerenciamento de ativos de mídia, monitoramento de conformidade, moderação de conteúdo e busca em vídeos educacionais.

Financiamento e Posição de Mercado

A empresa levantou uma Série A de US$ 50 milhões em 2024 liderada pela NEA e NVentures (braço de venture da NVIDIA), com participação da Index Ventures e investidores existentes. O investimento da NVIDIA foi particularmente significativo — sinalizou que a fabricante de GPU via compreensão de vídeo como um segmento de mercado distinto e de alto valor.

A Lacuna de Compreensão de Vídeo

A razão pela qual a Twelve Labs tem espaço para existir em um mercado dominado por laboratórios generalistas bem financiados é que vídeo é genuinamente difícil. Uma única hora de vídeo a 30 frames por segundo contém 108.000 imagens, mais áudio, fala, textos sobrepostos e relações temporais entre todos eles. Modelos multimodais de propósito geral podem processar clipes curtos, mas lutam com a escala, precisão e velocidade que aplicações de vídeo em produção exigem. A arquitetura especificamente construída da Twelve Labs é projetada exatamente para esse problema. Se vídeo é o meio dominante da internet, quem decifrar compreensão de vídeo em escala de produção deterá uma posição estratégica comparável ao que o Google Search detém para texto.

Twelve Labs

Por que isso importa

Em profundidade

Pegasus e Marengo: A Stack de Produtos

Financiamento e Posição de Mercado

A Lacuna de Compreensão de Vídeo

Conceitos relacionados