Voyage AI 於 2023 年從史丹佛大學電腦科學界誕生,由助理教授馬天宇創立,其在機器學習理論方面的研究,讓他對 embedding 模型的潛力有異於常人的嚴謹觀點。與其追逐通用型 LLM 的熱潮,馬天宇與他的團隊選擇了一個精準的賭注:AI 的真正基礎建設瓶頸不是生成——而是檢索。每一個 RAG 管線、每一個語義搜尋系統、每一個推薦引擎,其成敗都取決於其 embedding 的品質,而大多數開發者只能使用 OpenAI 或 Cohere 隨意提供的副產品。Voyage 要做的,就是讓 embedding 成為真正的主軸。
早期讓 Voyage 脫穎而出的,是其願意建立領域特定模型,而非單一萬用型 embedding。當競爭對手僅發布一個通用型 embedding 端點便宣告任務完成時,Voyage 卻推出了 voyage-code(針對軟體倉庫)、voyage-law(針對法律文件)、voyage-finance(針對財務資料),以及 voyage-multilingual(跨語言檢索)等專屬模型。每個模型皆訓練於精選的領域語料庫,結果顯示:voyage-code 在程式碼搜尋基準測試中持續超越通用型 embedding,而 voyage-law 則能捕捉法律語言的語義細節,這正是通用模型常見的混亂之處。這種領域專精策略證明是遠見卓識——開發者在建立生產級 RAG 系統時迅速發現,對於檢索準確度而言,embedding 品質遠比 LLM 品質重要,他們也願意為針對特定資料微調的模型支付費用。
Voyage 的模型在 Massive Text Embedding Benchmark(MTEB)排行榜上持續位居前茅,而這是最廣為引用的 embedding 品質排行榜。他們於 2024 年底推出的 voyage-3 與 voyage-3-lite 模型,在維持生產環境中合理維度與延遲的同時,進一步推升了檢索效能的最前沿水準。公司亦投資長上下文 embedding,支援每個輸入最多 32,000 tokens——這對法律文件搜尋或程式碼庫索引等應用至關重要,因為需要大塊資料來保留語意。其定價模式大幅壓低 OpenAI 的 embedding API 價格,這有助於吸引新創與中型公司採用以檢索為主的應用。
2025 年初,Google 收購了 Voyage AI,將團隊與技術納入其雲端與 Gemini 生態系統。這次收購明確顯示,即使是最頂尖的企業也認定 Voyage 所打造的技術是內部難以輕易複製的。對 Google 而言,這代表可立即升級 Vertex AI 搜尋與 grounding 能力背後的 embedding 基礎設施。對更廣泛的市場而言,這確認了 embedding 已不再是附屬的標準化商品,而是關鍵的競爭層面。收購也引發 Voyage 現有 API 客戶對長期獨立性的疑問——這是一個專精新創被超大規模雲端服務商吸收時常見的模式。