Jina AI 建立了嵌入式與檢索基礎設施,數千個 RAG 系統皆依賴此基礎設施,證明了專注於搜尋工具的開發,比試圖做所有事情更有價值。他們的長文脈嵌入模型與 Reader API 解決了 AI 驅動搜尋中兩個最困難的實際問題 — 忠實地表示長文件,並從混亂的網頁中提取乾淨的文本 — 同時他們還保持核心模型開源。在由通才實驗室主導的生態系統中,Jina 展示了專注於一件事並做到極致,同時讓開發者使用起來極為簡易,這確實是一個真實的商業模式。
Jina AI 於 2020 年由漢曉創立,漢曉曾擔任騰訊 Tensorflow 團隊的首席工程師,並曾在 SAP Research 擔任機器學習工程師。總部位於德國柏林的 Jina,最初以一個雄心勃勃的開放原始碼專案起家:一個神經搜尋框架,讓開發者能使用深度學習而非關鍵字匹配來建立搜尋系統。早期的 Jina 架構技術上令人印象深刻,但直到公司轉向嵌入模型(embedding models)與開發者 API 時,才真正找到商業立足點。Jina 於 2021 年獲得由 Canaan Partners 領投的 3,000 萬美元 A 輪融資,並持續透過尋找搜尋基礎設施與 LLM 時代需求的實用交集點,穩步成長。
Jina 的突破性產品是他們的 jina-embeddings 模型家族。2023 年推出的 jina-embeddings-v2 模型,是首批支援 8,192 個 token 上下文長度的開放原始碼嵌入模型,這個長度是當時大多數競爭對手的八倍。這對檢索增強生成(RAG)系統來說意義重大,因為在這種系統中,你必須嵌入長文件而無需將其切割成小片段,以免失去上下文。v3 模型進一步透過多任務訓練,讓單一模型能透過調整推論時的任務參數,處理不同嵌入場景(檢索、分類、聚類)。Jina 還推出了基於 ColBERT 的重排序模型(jina-reranker)與跨編碼器模型,當用作初始嵌入搜尋後的第二階段過濾器時,能顯著提升檢索品質。
Jina 最聰明的產品策略可能是 2024 年推出的 Reader API。它接受任何 URL 並返回一個乾淨、可供 LLM 使用的文本提取結果,不包含廣告、導覽欄、Cookie 標語,只保留內容本身。開發者在建立需要讀取網頁的 RAG 管線或 AI agent 時,立即愛上這個工具,因為網頁爬蟲在簡單情況下容易實現,但在大規模時卻是噩夢。Reader API 能處理 JavaScript 動態渲染、付費牆(在法律允許範圍內)與複雜的頁面佈局,返回結構化的 Markdown 格式,語言模型可以直接使用。結合他們的嵌入 API 與重排序器,Jina 提供了完整的「檢索」部分解決方案,這在每個人工智慧應用都必須基於真實文件來產生輸出的時代,是一個非常聰明的定位。
Jina 在開放原始碼與商業產品之間走了一條有趣的路線。他們的嵌入模型可在 Hugging Face 上以 Apache 2.0 授權協議取得,這推動了巨大的採用率——jina-embeddings 模型已被下載數百萬次。商業化策略則是主機 API:使用相同的模型,但經過管理、優化,並能以規模化方式提供,無需處理 GPU 資源配置的麻煩。這與 Elastic(開放原始碼 Elasticsearch,商業化 Elastic Cloud)與 MongoDB 的策略相同,之所以有效,是因為大多數公司寧願支付合理的每 token 費用,也不願自行運營 GPU 基礎設施。Jina 還推出了分類 API 與分段器 API,用於智能文件切割,補足了他們的文件處理工具組。
Jina 在嵌入模型 API 領域與 OpenAI 的嵌入模型、Cohere 的 Embed、Google 的 Gecko 以及 Voyage AI 競爭。他們的差異化優勢在於長上下文支援、多語言表現(特別是在中文、德文及其他非英語語言上表現強大,這歸功於他們在柏林的多語言訓練資料策劃),以及價格結構大幅低於主要競爭對手。他們並不想建立基礎模型實驗室或參與聊天功能的競爭——他們的賭注是搜尋、檢索與文件理解是每個人工智慧應用都需要的基礎設施層,而專注的公司能為此建立比通用實驗室將嵌入作為附屬產品更好的工具。這雖然比打造下一個 GPT 的賭注規模小、不那麼光鮮,但可能反而更具有防禦性。