Voyage AI：定義與含義 — AI 維基

嵌入模型公司專門為程式碼、法律、金融及多語言搜尋建立專業向量。他們的模型在 MTEB 排行榜上名列前茅，透過 API 提供目前最佳的檢索品質。

為什麼重要

Voyage AI 證明了嵌入模型值得與大語言模型（LLM）一樣的工程關注與投資。在大多數供應商將向量表示視為低利潤工具的市場中，Voyage 展示了領域特定的嵌入模型可以顯著提升檢索準確度——這是在生產環境中的 RAG 系統中最重要的槓桿。他們被 Google 收購，驗證了「掌握嵌入層者即掌握 AI 搜索基礎設施基礎」的理論。

深度解析

Voyage AI 於 2023 年從史丹佛大學電腦科學界誕生，由助理教授馬天宇創立，其在機器學習理論方面的研究，讓他對 embedding 模型的潛力有異於常人的嚴謹觀點。與其追逐通用型 LLM 的熱潮，馬天宇與他的團隊選擇了一個精準的賭注：AI 的真正基礎建設瓶頸不是生成——而是檢索。每一個 RAG 管線、每一個語義搜尋系統、每一個推薦引擎，其成敗都取決於其 embedding 的品質，而大多數開發者只能使用 OpenAI 或 Cohere 隨意提供的副產品。Voyage 要做的，就是讓 embedding 成為真正的主軸。

以領域特定 embedding 為策略

早期讓 Voyage 脫穎而出的，是其願意建立領域特定模型，而非單一萬用型 embedding。當競爭對手僅發布一個通用型 embedding 端點便宣告任務完成時，Voyage 卻推出了 voyage-code（針對軟體倉庫）、voyage-law（針對法律文件）、voyage-finance（針對財務資料），以及 voyage-multilingual（跨語言檢索）等專屬模型。每個模型皆訓練於精選的領域語料庫，結果顯示：voyage-code 在程式碼搜尋基準測試中持續超越通用型 embedding，而 voyage-law 則能捕捉法律語言的語義細節，這正是通用模型常見的混亂之處。這種領域專精策略證明是遠見卓識——開發者在建立生產級 RAG 系統時迅速發現，對於檢索準確度而言，embedding 品質遠比 LLM 品質重要，他們也願意為針對特定資料微調的模型支付費用。

MTEB 排行榜與技術可信度

Voyage 的模型在 Massive Text Embedding Benchmark（MTEB）排行榜上持續位居前茅，而這是最廣為引用的 embedding 品質排行榜。他們於 2024 年底推出的 voyage-3 與 voyage-3-lite 模型，在維持生產環境中合理維度與延遲的同時，進一步推升了檢索效能的最前沿水準。公司亦投資長上下文 embedding，支援每個輸入最多 32,000 tokens——這對法律文件搜尋或程式碼庫索引等應用至關重要，因為需要大塊資料來保留語意。其定價模式大幅壓低 OpenAI 的 embedding API 價格，這有助於吸引新創與中型公司採用以檢索為主的應用。

被 Google 收購與其象徵意義

2025 年初，Google 收購了 Voyage AI，將團隊與技術納入其雲端與 Gemini 生態系統。這次收購明確顯示，即使是最頂尖的企業也認定 Voyage 所打造的技術是內部難以輕易複製的。對 Google 而言，這代表可立即升級 Vertex AI 搜尋與 grounding 能力背後的 embedding 基礎設施。對更廣泛的市場而言，這確認了 embedding 已不再是附屬的標準化商品，而是關鍵的競爭層面。收購也引發 Voyage 現有 API 客戶對長期獨立性的疑問——這是一個專精新創被超大規模雲端服務商吸收時常見的模式。

Voyage AI

為什麼重要

深度解析

以領域特定 embedding 為策略

MTEB 排行榜與技術可信度

被 Google 收購與其象徵意義

相關概念