Voyage AI 于 2023 年从斯坦福大学计算机科学领域诞生,由助理教授马天宇创立。他在机器学习理论领域的研究,使他拥有对嵌入模型未来发展的非同寻常的严谨视角。与追逐通用大语言模型(LLM)热潮不同,马和他的团队做出了一项深思熟虑的押注:人工智能真正的基础设施瓶颈不是生成——而是检索。每一个 RAG 管道、每一个语义搜索系统、每一个推荐引擎,其成败都取决于其嵌入(embedding)的质量,而大多数开发者只能使用 OpenAI 或 Cohere 作为副产品提供的嵌入模型。Voyage 决心让嵌入模型成为核心。
Voyage 最初与众不同的地方在于,他们愿意构建领域特定模型,而不是一个通用的“一刀切”嵌入模型。当竞争对手发布一个通用嵌入接口并宣称任务完成时,Voyage 却推出了 voyage-code 用于软件仓库、voyage-law 用于法律文件、voyage-finance 用于金融数据、voyage-multilingual 用于跨语言检索。每个模型都基于精心挑选的领域语料库进行训练,结果表明:voyage-code 在代码搜索基准测试中始终优于通用嵌入模型,而 voyage-law 则捕捉到了法律语言的语义细微差别,而通用模型通常会将其搞砸。这种领域专业化策略证明是远见的——构建生产级 RAG 系统的开发者很快发现,对于检索准确性而言,嵌入质量远比 LLM 质量重要,他们愿意为针对特定数据优化的模型付费。
Voyage 的模型在 Massive Text Embedding Benchmark(MTEB)排行榜上始终位居前列或接近榜首,这是最广泛引用的嵌入质量排行榜。他们在 2024 年底发布的 voyage-3 和 voyage-3-lite 模型在保持生产使用中维度和延迟合理的同时,推动了最先进的检索性能。公司还投资了长上下文嵌入,支持每个输入高达 32,000 个 token——这对法律文档搜索或代码库索引等应用至关重要,因为需要大块内容以保留语义。他们的定价模型显著低于 OpenAI 的嵌入 API,这有助于推动初创公司和中型企业在构建以检索为主的应用时采用其服务。
2025 年初,谷歌收购了 Voyage AI,将其团队和技术整合进其云服务和 Gemini 生态系统。此次收购明确表明,即使是最大的玩家也认识到 Voyage 所构建的东西是他们内部难以轻易复制的。对谷歌而言,这意味着可以立即升级 Vertex AI 搜索和 grounding 能力背后的嵌入基础设施。对更广泛的市场而言,这确认了嵌入模型不再是可有可无的附属品,而是关键的竞争层级。此次收购也引发了 Voyage 现有 API 客户对其长期独立性的担忧——这在专业化初创公司被超大规模云服务商吸收时是熟悉的模式。