Twelve Labs: Definición y significado — Wiki de IA

Empresa de comprension de video que te permite buscar, analizar y generar contenido a partir de video usando lenguaje natural. Piensa en ella como "RAG para video" — sus modelos entienden lo que sucede en un video de la misma manera que los LLMs entienden texto.

Por qué importa

Twelve Labs esta construyendo la infraestructura fundacional para hacer que el contenido de video del mundo sea legible por maquinas. En una era donde el video domina la comunicacion digital pero sigue siendo en gran medida no buscable por IA, sus modelos de embedding y generacion construidos a proposito resuelven un problema que incluso los laboratorios de frontera mas grandes solo han abordado superficialmente. Si el video es el medio dominante de internet, quien descifre la comprension de video a escala de produccion tendra una posicion estrategica comparable a lo que Google Search tiene para el texto.

En profundidad

Twelve Labs fue fundada en 2021 por Jae Lee y Aiden Lee, quienes vieron una brecha masiva en el panorama de IA: mientras los modelos basados en texto avanzaban a velocidad vertiginosa, el video seguia siendo tercamente opaco para las maquinas. Podias pedirle a un LLM que resumiera un documento en segundos, pero preguntarle que paso en el minuto 14:32 de un video de dos horas? Imposible. El equipo fundador, con raices en investigacion de vision por computadora y experiencia en empresas como Google y Samsung, reconocio que la comprension de video requeria un enfoque fundamentalmente diferente de simplemente adjuntar reconocimiento de imagenes a una linea de tiempo. Se propusieron construir modelos fundacionales multimodales que entienden video de forma nativa — tratando escenas visuales, audio, habla y texto en pantalla como un flujo unificado en lugar de canales separados cosidos despues.

Pegasus y Marengo: El stack de productos

Los productos principales de Twelve Labs son Pegasus y Marengo, cada uno abordando una pieza diferente del problema de inteligencia de video. Marengo es su modelo de embedding de video — convierte contenido de video en representaciones vectoriales ricas que permiten busqueda semantica en bibliotecas masivas de video. Puedes consultar "persona con chaqueta roja abriendo una puerta" en miles de horas de metraje y obtener resultados precisos a nivel de marca de tiempo, incluso si nadie etiqueto o subtitulo ese momento. Pegasus es su modelo de generacion de video a texto, capaz de resumir, describir y responder preguntas sobre contenido de video con una especificidad que los modelos vision-lenguaje genericos luchan por igualar. Juntos, estos modelos impulsan una API que permite a los desarrolladores construir aplicaciones como gestion de activos de medios, monitoreo de cumplimiento, moderacion de contenido y busqueda de video educativo sin necesidad de construir su propio pipeline de ML de video desde cero.

Financiamiento y posicion de mercado

La empresa levanto una Serie A de $50 millones en 2024 liderada por NEA y NVentures (el brazo de venture capital de NVIDIA), con participacion de Index Ventures e inversionistas existentes. Esto llevo su financiamiento total a mas de $70 millones. La inversion de NVIDIA fue particularmente significativa — senalo que el fabricante de GPUs veia la comprension de video como un segmento de mercado distinto y de alto valor en el que valia la pena apostar, no solo una funcionalidad que eventualmente seria absorbida por modelos multimodales de proposito general de OpenAI o Google. Twelve Labs ha sido deliberada al posicionarse como infraestructura, no como una aplicacion de usuario final. Su enfoque API-first significa que no compiten con sus clientes; son la tuberia que hace posibles las aplicaciones de IA nativas de video en todas las industrias, desde medios y entretenimiento hasta seguridad y salud.

La brecha en comprension de video

La razon por la que Twelve Labs tiene espacio para existir en un mercado dominado por laboratorios generalistas bien financiados es que el video es genuinamente dificil. Una sola hora de video a 30 cuadros por segundo contiene 108,000 imagenes, mas audio, habla, superposiciones de texto y relaciones temporales entre todo ello. Los modelos multimodales de proposito general como GPT-4o y Gemini pueden procesar clips de video cortos, pero les cuesta con la escala, precision y velocidad que las aplicaciones de video en produccion demandan. La arquitectura construida a proposito de Twelve Labs esta disenada exactamente para este problema: indexacion rapida de bibliotecas masivas de video, busqueda en menos de un segundo en cientos de miles de horas, y tareas de generacion que requieren entender lo que sucedio a traves del tiempo, no solo en un cuadro individual. A medida que el video continua dominando el trafico de internet y los datos empresariales — Cisco estima que el video representara el 82% de todo el trafico IP — las empresas que puedan hacer ese contenido buscable y accionable seran duenas de una pieza unicamente valiosa del stack de IA.

Twelve Labs

Por qué importa

En profundidad

Pegasus y Marengo: El stack de productos

Financiamiento y posicion de mercado

La brecha en comprension de video

Conceptos relacionados