Twelve Labs : Définition et signification — Wiki IA

Entreprise de compréhension vidéo qui permet de rechercher, analyser et générer du contenu à partir de la vidéo en langage naturel. Pensez-y comme à la « génération augmentée par la recherche pour la vidéo » — leurs modèles comprennent ce qui se passe dans une vidéo comme les grands modèles de langage comprennent le texte.

Pourquoi c’est important

Twelve Labs construit l'infrastructure fondamentale pour rendre le contenu vidéo mondial lisible par les machines. À une époque où la vidéo domine la communication numérique mais reste en grande partie non interrogeable par l'IA, leurs modèles de plongement et de génération spécialement conçus résolvent un problème que même les plus grands laboratoires frontière n'ont abordé que superficiellement. Si la vidéo est le médium dominant d'internet, celui qui résout la compréhension vidéo à l'échelle de la production détient une position stratégique comparable à celle que Google Search détient pour le texte.

En profondeur

Twelve Labs a été fondée en 2021 par Jae Lee et Aiden Lee, qui ont identifié une lacune majeure dans le paysage de l'IA : alors que les modèles textuels progressaient à une vitesse vertigineuse, la vidéo restait obstinément opaque pour les machines. On pouvait demander à un grand modèle de langage de résumer un document en quelques secondes, mais lui demander ce qui s'est passé à la minute 14 :32 d'une vidéo de deux heures? Impossible. L'équipe fondatrice, avec des racines dans la recherche en vision par ordinateur et de l'expérience chez des entreprises comme Google et Samsung, a reconnu que la compréhension vidéo nécessitait une approche fondamentalement différente du simple ajout de reconnaissance d'images sur une ligne temporelle. Ils ont entrepris de construire des modèles fondation multimodaux qui comprennent la vidéo nativement — traitant les scènes visuelles, l'audio, la parole et le texte à l'écran comme un flux unifié plutôt que des canaux séparés assemblés après coup.

Pegasus et Marengo : la pile produit

Les produits centraux de Twelve Labs sont Pegasus et Marengo, chacun s'attaquant à une facette différente du problème d'intelligence vidéo. Marengo est leur modèle de plongement vidéo — il convertit le contenu vidéo en représentations vectorielles riches qui permettent la recherche sémantique à travers de vastes bibliothèques vidéo. Vous pouvez chercher « personne en veste rouge ouvrant une porte » à travers des milliers d'heures de séquences et obtenir des résultats précis au niveau de l'horodatage, même si personne n'a jamais étiqueté ou sous-titré ce moment. Pegasus est leur modèle de génération vidéo-vers-texte, capable de résumer, décrire et répondre à des questions sur le contenu vidéo avec une spécificité que les modèles vision-langage génériques peinent à égaler. Ensemble, ces modèles propulsent une API qui permet aux développeurs de construire des applications comme la gestion d'actifs médiatiques, la surveillance de conformité, la modération de contenu et la recherche de vidéos éducatives sans avoir besoin de construire leur propre pipeline d'apprentissage automatique pour la vidéo à partir de zéro.

Financement et position de marché

L'entreprise a levé 50 millions de dollars en série A en 2024, menée par NEA et NVentures (la branche capital-risque de NVIDIA), avec la participation d'Index Ventures et d'investisseurs existants. Cela a porté leur financement total au-delà de 70 millions de dollars. L'investissement de NVIDIA était particulièrement significatif — il signalait que le fabricant de GPU considérait la compréhension vidéo comme un segment de marché distinct et de grande valeur sur lequel il valait la peine de miser, et non comme une simple fonctionnalité qui finirait par être absorbée dans les modèles multimodaux polyvalents d'OpenAI ou Google. Twelve Labs a été délibérée dans son positionnement comme infrastructure, et non comme application destinée aux utilisateurs finaux. Leur approche « API d'abord » signifie qu'ils ne rivalisent pas avec leurs clients ; ils sont la plomberie qui rend les applications d'IA natives pour la vidéo possibles dans tous les secteurs, des médias et du divertissement à la sécurité et aux soins de santé.

Le fossé de la compréhension vidéo

La raison pour laquelle Twelve Labs a de la place dans un marché dominé par des laboratoires généralistes bien financés est que la vidéo est véritablement difficile. Une seule heure de vidéo à 30 images par seconde contient 108 000 images, plus l'audio, la parole, les incrustations textuelles et les relations temporelles entre tous ces éléments. Les modèles multimodaux polyvalents comme GPT-4o et Gemini peuvent traiter de courts clips vidéo, mais ils peinent avec l'échelle, la précision et la vitesse que les applications vidéo de production exigent. L'architecture dédiée de Twelve Labs est conçue exactement pour ce problème : indexation rapide de bibliothèques vidéo massives, recherche en moins d'une seconde à travers des centaines de milliers d'heures, et tâches de génération qui nécessitent de comprendre ce qui s'est passé au fil du temps, pas seulement dans une seule image. Alors que la vidéo continue de dominer le trafic internet et les données d'entreprise — Cisco estime que la vidéo représentera 82 % de tout le trafic IP — les entreprises qui peuvent rendre ce contenu interrogeable et exploitable détiendront une position unique et stratégique dans la pile IA.

Twelve Labs

Pourquoi c’est important

En profondeur

Pegasus et Marengo : la pile produit

Financement et position de marché

Le fossé de la compréhension vidéo

Concepts connexes