Twelve Labs：定義與含義 — AI 維基

視頻理解公司，讓您能使用自然語言來搜索、分析和生成視頻內容。可以把它想成是「視頻的 RAG」— 他們的模型理解視頻內容的方式，就像大型語言模型（LLM）理解文字一樣。

為什麼重要

Twelve Labs 正在建立讓全球視頻內容變得可被機器讀取的基礎設施。在視頻在數位溝通中佔據主導地位，但卻仍無法被 AI 搜索的時代，他們專為此設計的 embedding 與生成模型解決了一個連最大的前沿實驗室也僅 superficially 解決的問題。如果視頻是網際網路的主導媒介，那麼能夠在大規模生產環境中破解視頻理解的人，將會擁有類似 Google Search 對於文字所擁有的戰略地位。

深度解析

Twelve Labs 於 2021 年由 Jae Lee 與 Aiden Lee 共同創立，他們發現 AI 領域存在一個巨大的缺口：雖然基於文字的模型正以前所未有的速度發展，但視頻對機器來說仍然頑固地不透明。你可以讓 LLM 在幾秒內總結一份文件，但要問它兩小時視頻第 14 分 32 秒發生了什麼？這幾乎是不可能的。創始團隊來自電腦視覺研究領域，並曾在 Google 與 Samsung 等公司工作，他們意識到視頻理解需要一種與將影像辨識接上時間軸完全不同的方法。他們致力於建立能原生理解視頻的多模態基礎模型——將視覺場景、聲音、語音與螢幕上的文字視為統一的資料流，而非事後拼接的獨立通道。

Pegasus 與 Marengo：產品架構

Twelve Labs 的核心產品是 Pegasus 與 Marengo，各自針對視頻智慧問題的不同部分。Marengo 是他們的視頻 embedding 模型——它將視頻內容轉換為豐富的向量表示，使語義搜尋能橫跨龐大的視頻資料庫。你可以查詢「穿紅色外套的人打開門」，並在數千小時的影片中精確地取得時間戳記級的結果，即使從來沒有人標記或說明過那個時刻。Pegasus 是他們的視頻到文字生成模型，能以一般視覺語言模型難以匹敵的精準度總結、描述並回答視頻內容的問題。這兩種模型共同推動了一個 API，讓開發人員能建立媒體資產管理、合規監控、內容審查與教育視頻搜尋等應用程式，而無需從頭開始建立自己的視頻機器學習流程。

資金與市場定位

該公司在 2024 年完成了由 NEA 與 NVentures（NVIDIA 的風險投資部門）領投的 5,000 萬美元 A 輪融資，Index Ventures 與現有投資人也參與其中。這使他們的總融資金額超過 7,000 萬美元。NVIDIA 的投資尤為重要——這表明 GPU 製造商認為視頻理解是一個獨特且高價值的市場領域，值得專注投資，而不是僅僅作為 OpenAI 或 Google 等公司通用多模態模型中的一個功能。Twelve Labs 有意識地將自己定位為基礎設施，而非終端用戶應用程式。他們以 API 為先的策略意味著他們不與客戶競爭；他們是讓視頻原生 AI 應用程式在媒體與娛樂、安全與醫療等產業中成為可能的基礎建設。

視頻理解的缺口

Twelve Labs 能在由資金充足的通用型實驗室主導的市場中佔有一席之地，原因在於視頻確實非常困難。以每秒 30 帧的視頻來說，一小時就包含 108,000 張影像，再加上聲音、語音、文字疊加與所有內容之間的時間關係。像 GPT-4o 與 Gemini 這樣的通用多模態模型可以處理短視頻片段，但卻難以應對生產級視頻應用所要求的規模、精準度與速度。Twelve Labs 的專用架構正是為了解決這個問題：快速索引龐大的視頻資料庫、在數十萬小時的資料中進行次秒級搜尋，以及需要理解時間軸上發生事件的生成任務，而不僅僅是單一畫面。隨著視頻持續佔據互聯網流量與企業數據——思科預計視頻將佔所有 IP 流量的 82%——能夠讓這些內容可搜尋且可操作的公司將在 AI 架構中佔據獨特且高價值的一席之地。

Twelve Labs

為什麼重要

深度解析

Pegasus 與 Marengo：產品架構

資金與市場定位

視頻理解的缺口

相關概念