India में 1.4 अरब से अधिक लोग, 22 आधिकारिक रूप से मान्यता प्राप्त भाषाएँ, और सैकड़ों बोलियाँ हैं — फिर भी हाल तक, Indian developers और businesses के लिए उपलब्ध AI मॉडल लगभग पूरी तरह से English-केंद्रित प्रशिक्षण डेटा पर बनाए गए थे जिसमें Indian भाषाओं को afterthought के रूप में bolt किया गया था। Sarvam AI की स्थापना 2023 में Vivek Raghavan और AI4Bharat शोधकर्ता Pratyush Kumar ने इस समीकरण को मौलिक रूप से बदलने के लिए की थी। उनकी थीसिस सरल लेकिन महत्वाकांक्षी थी: India को Silicon Valley मॉडलों के आसपास localized wrappers की आवश्यकता नहीं है। इसे Indian भाषा डेटा पर शुरुआत से बनाए गए foundation मॉडलों की आवश्यकता है, उन लोगों द्वारा प्रशिक्षित जो हिंदी, तमिल, तेलुगु, बंगाली, मराठी, कन्नड़, और उससे आगे की भाषाई संरचना, सांस्कृतिक context, और real-world उपयोग patterns को समझते हैं। दोनों संस्थापकों ने AI4Bharat से गहरा अनुभव लाया, IIT Madras शोध पहल जिसने पहले से ही Indian भाषाओं के लिए कुछ सबसे महत्वपूर्ण open datasets और मॉडल उत्पन्न किए थे।
Sarvam एक vacuum में नहीं उभरा। India का AI ecosystem वर्षों से गति बना रहा था, India AI Mission (जिसने AI बुनियादी ढाँचे के लिए $1 अरब से अधिक प्रतिबद्ध किए) जैसी सरकारी पहलों, IITs और अन्य संस्थानों से इंजीनियरिंग प्रतिभा के एक विशाल pool, और एक घरेलू बाज़ार जिसे वैश्विक AI कंपनियाँ लगातार underserved करती थीं द्वारा संचालित। Indian भाषा कार्यों के लिए GPT-4 या Claude का उपयोग करने की समस्या केवल translation गुणवत्ता नहीं है — यह यह है कि इन मॉडलों में code-switching (हिंदी और अंग्रेज़ी का रोज़मर्रा की बातचीत में लगातार मिश्रण), क्षेत्रीय मुहावरे, script variations, और एक भाषाई रूप से विविध समाज में संचार के pragmatics की गहरी समझ की कमी है। Sarvam ने खुद को उस कंपनी के रूप में स्थापित किया जो इस gap को बंद करेगी, English benchmarks पर OpenAI के साथ प्रतिस्पर्धा करके नहीं बल्कि उन भाषाओं में निर्णायक रूप से सबसे अच्छा होकर जो 1.4 अरब लोग वास्तव में रोज़ बोलते हैं।
Sarvam का मॉडल परिवार Sarvam-1 (Indian भाषाओं के लिए optimized एक multilingual LLM), Sarvam-2B (एक छोटा, कुशल variant on-device तैनाती के लिए डिज़ाइन किया गया), और Indian भाषाओं में speech recognition तथा text-to-speech के लिए विशेष मॉडल शामिल हैं। उनके Saaras voice मॉडल Indian speech की विशेष चुनौतियों को संभालते हैं — accent विविधता, noisy वातावरण, और Dravidian तथा Indo-Aryan भाषा परिवारों की phonological जटिलता — accuracy के साथ जिसे अंतर्राष्ट्रीय विकल्प बस मेल नहीं खा सकते। कंपनी ने Sarvam APIs भी बनाए हैं जो Indian enterprise और सरकारी use cases के लिए तैयार translation, transliteration, और conversational AI क्षमताएँ प्रदान करते हैं। उनका दृष्टिकोण AI4Bharat द्वारा उत्पादित open-source datasets और benchmarks पर भारी झुकता है, एक virtuous cycle बनाते हुए जहाँ अकादमिक शोध सीधे commercial उत्पादों में feed होता है।
Sarvam ने 2024 में $41 मिलियन Series A funding जुटाई, Lightspeed Venture Partners के नेतृत्व में Peak XV (पूर्व में Sequoia India) और Khosla Ventures की भागीदारी के साथ। इसने इसे India में सबसे अच्छी तरह से वित्त पोषित AI startups में से एक बनाया, लेकिन शायद VC पैसे से अधिक महत्वपूर्ण Indian सरकारी प्राथमिकताओं के साथ रणनीतिक संरेखण है। India AI Mission स्पष्ट रूप से sovereign AI क्षमताओं के लिए call करता है, और Sarvam का Indian भाषा मॉडलों पर focus इसे सरकारी digital बुनियादी ढाँचा projects के लिए एक प्राकृतिक partner के रूप में स्थापित करता है — Aadhaar-scale सेवाओं के बारे में सोचें जिन्हें नागरिकों के साथ उनकी मातृभाषा में संवाद करने की आवश्यकता है। एक वैश्विक AI परिदृश्य में जो तेज़ी से sovereignty, डेटा governance, और सांस्कृतिक प्रतिनिधित्व के प्रश्नों द्वारा आकार दिया गया है, Sarvam India का दाँव दर्शाता है कि अगले अरब internet उपयोगकर्ताओं के लिए सबसे महत्वपूर्ण AI मॉडल San Francisco में नहीं बनाए जाएँगे।