Liquid AI 發表了兩款全新的檢索模型,LFM2.5-Embedding-350M 與 LFM2.5-ColBERT-350M,而最大的賣點就是它們的體積:兩者各只有 3.5億參數,卻都在多語言搜尋上擊敗了體積更大的 Qwen3-Embedding-0.6B。它們是 LFM 家族中首批雙向模型,以 Liquid 在三月發表的 LFM2.5-350M-Base 檢查點為基礎打造,並針對橫跨 11 種語言的快速多語言與跨語言檢索進行調校,這 11 種語言為:阿拉伯語、德語、英語、西班牙語、法語、義大利語、日語、韓語、挪威語、葡萄牙語與瑞典語。
這兩款模型以不同的路徑完成同一項工作。LFM2.5-Embedding-350M 是一款稠密雙編碼器:它會把整份文件壓縮成單一的 1024 維向量,藉此讓搜尋索引保持精簡,查詢成本也更低。LFM2.5-ColBERT-350M 則改採後期互動,為每個 token 各自保留一個 128 維向量,並在搜尋時逐字比對查詢內容。這種 token 層級的比對往往更為準確,也更能類推到模型未曾訓練過的主題,代價則是更龐大的索引。把兩者納入同一個家族,能讓團隊挑選最合適的取捨方式,或是用成本較低的雙編碼器來檢索,再用 ColBERT 模型來重新排序。
數據也佐證了關於體積的說法。在以 NDCG@10 計分的檢索基準 NanoBEIR Multilingual 上,ColBERT 模型在這 11 種語言的平均分為 0.605,嵌入模型則為 0.577,雙雙領先 Qwen3-Embedding-0.6B 的 0.556、前一代 LFM2-ColBERT-350M 的 0.540,以及 Alibaba 的 gte-multilingual-base 的 0.528。在以 Recall@20 計分的跨語言問答測試 MKQA-11 上,這兩款模型分別取得 0.694 與 0.691,同樣高於 Qwen3 的 0.638。這些勝出幅度算不上壓倒性,但一款 3.5億參數的模型能在多語言檢索上勝過一款 0.6B 的模型,這類成果在你必須為儲存與服務的每一個向量付費時,正是會帶來實質影響的關鍵。
速度則是這套賣點的另一半。Liquid 回報,在 MacBook M4 Max 的 CPU 上,查詢嵌入的中位數約為 7.3 毫秒,而在 H100 的 GPU 上則約為 1.5 毫秒。兩款模型都支援 32,768 token 的上下文,並針對文件調校為 512 token,同時提供標準格式與 GGUF 格式,因此能在 llama.cpp 之下運行。誠如該公司所言,它們小到幾乎可以在任何地方運行。兩款模型現已在 Hugging Face 上以 LFM Open License v1.0 授權提供。
對任何正在建構檢索系統的人而言,這樣的組合才是有趣之處。搜尋品質一向是隨著模型體積以及隨之而來的帳單一同攀升,因此把更出色的多語言檢索壓縮進一款能塞進手機或單一 CPU 的模型裡,指向的是相反的方向:私密、在裝置端執行,且服務成本低廉的搜尋,不必對外呼叫託管的 API。其中的但書值得直白地說清楚。這些是檢索與嵌入模型,並非聊天模型;採用的基準是 NanoBEIR 與 MKQA,而非完整的 MTEB 套件;而擊敗一款 0.6B 的模型是貨真價實但範圍有限的勝利,並非一舉超越了規模最大的商用嵌入模型。儘管如此,方向是明確的,而這正是小型模型檢索整年來一直前進的方向。
