Liquid AI ने दो नए रिट्रीवल मॉडल जारी किए हैं, LFM2.5-Embedding-350M और LFM2.5-ColBERT-350M, और इनकी सबसे बड़ी बात है इनका आकार: प्रत्येक 35 करोड़ पैरामीटर के होने के बावजूद, दोनों बहुभाषी खोज में बड़े Qwen3-Embedding-0.6B को मात देते हैं। ये LFM परिवार के पहले द्विदिशीय (bidirectional) सदस्य हैं, जो मार्च में Liquid द्वारा जारी किए गए LFM2.5-350M-Base चेकपॉइंट से बनाए गए हैं, और इन्हें 11 भाषाओं में तेज़ बहुभाषी तथा अंतर-भाषी रिट्रीवल के लिए तैयार किया गया है: अरबी, जर्मन, अंग्रेज़ी, स्पेनिश, फ्रेंच, इतालवी, जापानी, कोरियाई, नॉर्वेजियन, पुर्तगाली और स्वीडिश।

ये दोनों मॉडल एक ही काम के लिए अलग-अलग रास्ते अपनाते हैं। LFM2.5-Embedding-350M एक सघन (dense) bi-encoder है: यह पूरे दस्तावेज़ को एक ही 1024-आयामी वेक्टर में संपीड़ित कर देता है, जिससे खोज इंडेक्स छोटा रहता है और लुकअप सस्ते रहते हैं। LFM2.5-ColBERT-350M इसके बजाय late interaction का उपयोग करता है, यह हर टोकन के लिए एक अलग 128-आयामी वेक्टर रखता है और खोज के समय किसी क्वेरी का मिलान शब्द-दर-शब्द करता है। यह टोकन-स्तरीय मिलान आमतौर पर अधिक सटीक होता है और उन विषयों पर बेहतर सामान्यीकरण करता है जिन पर मॉडल को प्रशिक्षित नहीं किया गया था, हालाँकि इसकी कीमत एक बड़े इंडेक्स के रूप में चुकानी पड़ती है। एक ही परिवार में दोनों के होने से किसी टीम को अपने अनुकूल समझौता (trade-off) चुनने की सुविधा मिलती है, या वे रिट्रीव करने के लिए सस्ते bi-encoder और पुनः क्रमबद्ध (rerank) करने के लिए ColBERT मॉडल का उपयोग कर सकते हैं।

आँकड़े आकार के इस दावे का समर्थन करते हैं। NanoBEIR Multilingual पर, जो NDCG@10 से अंकित किया जाने वाला एक रिट्रीवल बेंचमार्क है, ColBERT मॉडल 11 भाषाओं में औसतन 0.605 और एम्बेडिंग मॉडल 0.577 अंक प्राप्त करता है, दोनों ही 0.556 पर Qwen3-Embedding-0.6B, 0.540 पर पिछले LFM2-ColBERT-350M, और 0.528 पर Alibaba के gte-multilingual-base से आगे हैं। MKQA-11 पर, जो Recall@20 से अंकित किया जाने वाला एक अंतर-भाषी प्रश्नोत्तर परीक्षण है, ये दोनों 0.694 और 0.691 पर पहुँचते हैं, फिर से 0.638 पर Qwen3 से ऊपर। ये जीतें कोई बड़े अंतर वाली नहीं हैं, पर बहुभाषी रिट्रीवल में किसी 0.6B मॉडल को शीर्ष से हटाने वाला एक 350M मॉडल उस तरह का परिणाम है जो तब मायने रखता है जब आप अपने द्वारा संग्रहीत और सर्व किए जाने वाले हर वेक्टर के लिए भुगतान कर रहे हों।

गति इस प्रस्तुति का दूसरा आधा हिस्सा है। Liquid का कहना है कि किसी MacBook M4 Max CPU पर मध्यिका (median) पर एक क्वेरी एम्बेडिंग लगभग 7.3 मिलीसेकंड में, और किसी H100 GPU पर लगभग 1.5 मिलीसेकंड में हो जाती है। दोनों मॉडल 32,768-टोकन के संदर्भ (context) का समर्थन करते हैं, जिन्हें दस्तावेज़ों के लिए 512 टोकन पर समायोजित किया गया है, और ये मानक तथा GGUF प्रारूपों में आते हैं ताकि ये llama.cpp के तहत चल सकें। जैसा कि कंपनी कहती है, ये इतने छोटे हैं कि लगभग कहीं भी चल सकते हैं। दोनों अभी Hugging Face पर LFM Open License v1.0 के तहत उपलब्ध हैं।

रिट्रीवल बनाने वाले किसी भी व्यक्ति के लिए, यही संयोजन दिलचस्प हिस्सा है। खोज की गुणवत्ता आमतौर पर मॉडल के आकार और उसके साथ आने वाले खर्च के साथ बढ़ती रही है, इसलिए बेहतर बहुभाषी रिट्रीवल को किसी ऐसे मॉडल में समेटना जो किसी फ़ोन या एकल CPU पर फिट हो जाए, दूसरी दिशा की ओर इशारा करता है: निजी, ऑन-डिवाइस, और सस्ती-सर्व खोज जो किसी होस्टेड API को कॉल नहीं करती। चेतावनियों को साफ़-साफ़ कह देना उचित है। ये रिट्रीवल और एम्बेडिंग मॉडल हैं, चैट मॉडल नहीं; बेंचमार्क पूरी MTEB शृंखला के बजाय NanoBEIR और MKQA हैं; और किसी 0.6B मॉडल को मात देना एक वास्तविक पर सीमित जीत है, न कि सबसे बड़े वाणिज्यिक एम्बेडरों से आगे की कोई छलाँग। फिर भी, दिशा स्पष्ट है, और यह वही दिशा है जिस ओर छोटे-मॉडल रिट्रीवल पूरे साल बढ़ता रहा है।