视频理解公司,让您可以通过自然语言搜索、分析和生成视频内容。可以将其视为“视频的RAG”—他们的模型理解视频内容的方式,就像大型语言模型(LLM)理解文本一样。
Twelve Labs由Jae Lee和Aiden Lee于2021年创立,他们发现AI领域存在巨大空白:虽然基于文本的模型正以惊人的速度发展,但视频对机器来说却依然难以理解。你可以让LLM在几秒钟内总结一份文档,但若问它两小时视频中第14分32秒发生了什么?这几乎是不可能的。创始团队拥有计算机视觉研究背景,并曾在谷歌和三星等公司工作,他们意识到视频理解需要从根本上不同于将图像识别附加到时间线上的方法。他们致力于构建能够原生理解视频的多模态基础模型——将视觉场景、音频、语音和屏幕上的文字视为统一的数据流,而非事后拼接的独立通道。
Twelve Labs的核心产品是Pegasus和Marengo,分别解决视频智能的不同方面。Marengo是他们的视频嵌入模型——它将视频内容转换为丰富的向量表示,从而实现对大规模视频库的语义搜索。你可以通过查询“穿红色夹克的人开门”在数千小时的视频素材中获得精确到时间戳的结果,即使没有人曾经标记或描述过这一时刻。Pegasus是他们的视频到文本生成模型,能够以通用视觉-语言模型难以匹敌的精确度对视频内容进行总结、描述和回答问题。这两款模型共同构成了一个API,使开发者能够无需从零构建视频机器学习流水线,即可开发媒体资产管理、合规监控、内容审核和教育视频搜索等应用。
该公司于2024年完成了由NEA和NVentures(NVIDIA的风投部门)领投的5000万美元A轮融资,Index Ventures和现有投资者也参与了本轮投资。这使他们的总融资额超过7000万美元。NVIDIA的投资尤其具有重要意义——这表明GPU制造商将视频理解视为一个独立且高价值的市场细分领域,而不仅仅是一般性多模态模型(如OpenAI或谷歌的模型)未来可能吸收的特性。Twelve Labs一直有意将自己定位为基础设施,而非终端用户应用。他们以API为核心的方法意味着他们不会与客户直接竞争;他们是使视频原生AI应用在媒体娱乐、安全和医疗等各个行业中成为可能的基础设施。
Twelve Labs能够在由资金雄厚的通用实验室主导的市场中找到立足之地,原因在于视频理解本身确实极具挑战性。每秒30帧的视频,一小时就包含108,000张图像,再加上音频、语音、文字叠加和所有元素之间的时间关系。像GPT-4o和Gemini这样的通用多模态模型可以处理短视频片段,但它们难以满足生产级视频应用对规模、精度和速度的要求。Twelve Labs专门设计的架构正是为了解决这个问题:快速索引大规模视频库、在数万小时视频中实现亚秒级搜索,以及需要理解时间演变而非单帧内容的生成任务。随着视频在互联网流量和企业数据中的占比持续上升——思科估计视频将占所有IP流量的82%——能够使这些内容可搜索且可操作的公司将拥有AI堆栈中独一无二的价值。