Liquid AI LFM2.5-8B-A1B: ऑन-डिवाइस MoE, 1.5B सक्रिय, M5 Max CPU पर 253 tok/s

Liquid AI ने LFM2.5-8B-A1B जारी किया, एक open-weight Mixture-of-Experts मॉडल जो प्रति token अपने 8.3B कुल पैरामीटर में से केवल 1.5B सक्रिय करता है। बिल्डर्स के लिए महत्वपूर्ण संख्या ऑन-डिवाइस थ्रूपुट है: M5 Max लैपटॉप CPU पर 6GB मेमोरी से कम में 253 tokens/सेकंड, मोबाइल पर ~30 tokens/सेकंड, और H100 पर 18.5K tokens/सेकंड (उच्च समवर्ती पर प्रतिदिन 1.6B token से अधिक)। यह परिनियोजन-अर्थशास्त्र चाल है — आप 1.5B सक्रिय इन्फरेंस लागत का भुगतान करते हैं जबकि 8.3B पैरामीटर ज्ञान पूल पर निर्भर करते हैं, ऐसे हार्डवेयर पर जो बैकपैक में फिट होता है। वज़न HuggingFace पर LFM1.0 लाइसेंस के तहत base और post-trained checkpoints के साथ हैं, आज llama.cpp, MLX, vLLM, और SGLang पर चलाने योग्य।

आर्किटेक्चर हाइब्रिड है, सादा MoE transformer नहीं। 24 परतों में से, 18 double-gated LIV convolution blocks हैं और 6 grouped-query attention परतें हैं, ऊपर MoE routing के साथ — conv-heavy डिज़ाइन वह है जो सक्रिय-param लागत और मेमोरी फुटप्रिंट को edge के लिए पर्याप्त कम रखता है। कॉन्टेक्स्ट विंडो पूर्ववर्ती के 32K से दोगुनी होकर 131,072 हो गई; शब्दावली 128K token तक बढ़ी, हिंदी, थाई, वियतनामी, इंडोनेशियाई, और अरबी के लिए संपीड़न लाभ ट्यून किए गए। LFM2-8B-A1B पर बेंचमार्क छलांग बड़ी हैं: IFEval 79.44 → 91.84 (बहुत कम सक्रिय params के बावजूद Gemma-4-26B के बराबर), MATH500 74.80 → 88.76, AA-Omniscience गैर-मतिभ्रम दर 7.46 → 63.47, Tau² Telecom 13.60 → 88.07। ईमानदार सीमाएँ Liquid द्वारा घोषित: छोटी सक्रिय-param संख्या ज्ञान क्षमता को सीमित करती है, इसलिए retrieval augmentation के बिना भारी प्रोग्रामिंग या ज्ञान-गहन कार्य के लिए उपयुक्त नहीं, और यह text-only है — कोई vision या audio नहीं।

इकोसिस्टम रीडिंग: MoE-on-edge अब dense small मॉडलों से अलग एक वास्तविक श्रेणी है। Qwen, Gemma, और Phi dense sub-10B में प्रतिस्पर्धा करते हैं; LFM2.5-8B-A1B का दांव यह है कि sparse activation आपको समान इन्फरेंस लागत पर उच्च गुणवत्ता छत देता है, जो विशेष रूप से on-device के लिए सही tradeoff है जहाँ मेमोरी bandwidth, compute नहीं, बाध्यकारी बाधा है। 1.5B सक्रिय संख्या वह है जो इसे फोन पर उपयोगी गति से चलने देती है — एक dense 8.3B मॉडल नहीं चलेगा। agent stack के लिए, tool calling और 128K कॉन्टेक्स्ट वाला एक ऑन-डिवाइस मॉडल बदलता है कि क्लाउड राउंड-ट्रिप के बिना क्या चल सकता है: स्थानीय agents जो लंबे दस्तावेज़ पढ़ते हैं, उपकरण कॉल करते हैं, और तर्क करते हैं, क्लाउड उन ज्ञान-गहन कॉल के लिए आरक्षित जिन्हें मॉडल स्वयं अपनी गहराई से बाहर के रूप में flag करता है (यही गैर-मतिभ्रम छलांग 63.47 तक वास्तव में मापती है — मॉडल जानता है कि कब नहीं जानता)।

यदि आप सोमवार सुबह edge या on-device AI भेजते हैं: 253-tok/s-लैपटॉप-CPU और ~30-tok/s-मोबाइल संख्याएँ अपने स्वयं के लक्ष्य हार्डवेयर के against benchmark करने योग्य हैं, और LFM1.0 लाइसेंस वाणिज्यिक उपयोग मानने से पहले पढ़ने की चीज़ है। यदि आप agent इन्फ्रा बनाते हैं: इसे उन ज्ञान कार्यों के लिए RAG परत के साथ जोड़ें जिन्हें यह गहराई से बाहर के रूप में flag करता है, और आपके पास एक local-first agent है जो केवल आवश्यक होने पर क्लाउड को छूता है। संरचनात्मक समाचार यह है कि sparse on-device ने गुणवत्ता-प्रति-सक्रिय-param फ्रंटियर पर dense on-device को हराया — देखें कि क्या Qwen और Gemma MoE edge वेरिएंट के साथ अनुसरण करते हैं।

Liquid AI LFM2.5-8B-A1B: ऑन-डिवाइस MoE, 1.5B सक्रिय, M5 Max CPU पर 253 tok/s

और समाचार