L'Inde compte plus de 1,4 milliard d'habitants, 22 langues officiellement reconnues et des centaines de dialectes — pourtant, jusqu'à très récemment, les modèles d'IA disponibles pour les développeurs et les entreprises indiennes étaient construits presque entièrement sur des données d'entraînement centrées sur l'anglais, avec les langues indiennes greffées après coup. Sarvam AI a été fondée en 2023 par Vivek Raghavan et Pratyush Kumar, chercheur chez AI4Bharat, pour changer fondamentalement cette équation. Leur thèse était directe mais ambitieuse : l'Inde n'a pas besoin d'adaptations locales de modèles de la Silicon Valley. Elle a besoin de modèles fondation construits de zéro sur des données en langues indiennes, entraînés par des personnes qui comprennent la structure linguistique, le contexte culturel et les schémas d'utilisation réels de l'hindi, du tamoul, du télougou, du bengali, du marathi, du kannada et au-delà. Les deux fondateurs apportaient une expérience approfondie d'AI4Bharat, l'initiative de recherche de l'IIT Madras qui avait déjà produit certains des jeux de données et modèles ouverts les plus significatifs pour les langues indiennes.
Sarvam n'est pas née dans le vide. L'écosystème IA de l'Inde prenait de l'élan depuis des années, propulsé par des initiatives gouvernementales comme la India AI Mission (qui a engagé plus de 1 milliard de dollars en infrastructure IA), un immense bassin de talents en ingénierie issu des IIT et d'autres institutions, et un marché intérieur que les entreprises mondiales d'IA desservaient systématiquement de manière insuffisante. Le problème avec l'utilisation de GPT-4 ou Claude pour des tâches en langues indiennes n'est pas seulement la qualité de la traduction — c'est que ces modèles manquent de compréhension profonde de l'alternance codique (le mélange constant de l'hindi et de l'anglais dans la conversation quotidienne), des expressions régionales, des variations d'écriture et de la pragmatique de la communication dans une société linguistiquement diverse. Sarvam s'est positionnée comme l'entreprise qui comblerait cette lacune, non pas en rivalisant avec OpenAI sur les bancs d'essai en anglais, mais en étant définitivement la meilleure pour les langues que 1,4 milliard de personnes parlent réellement au quotidien.
La famille de modèles de Sarvam comprend Sarvam-1 (un grand modèle de langage multilingue optimisé pour les langues indiennes), Sarvam-2B (une variante plus petite et efficace conçue pour le déploiement sur appareil) et des modèles spécialisés pour la reconnaissance vocale et la synthèse vocale dans les langues indiennes. Leurs modèles vocaux Saaras gèrent les défis particuliers de la parole indienne — la diversité des accents, les environnements bruyants et la complexité phonologique des familles de langues dravidiennes et indo-aryennes — avec une précision que les alternatives internationales ne peuvent tout simplement pas égaler. L'entreprise a également développé les API Sarvam qui fournissent des capacités de traduction, de translittération et d'IA conversationnelle adaptées aux cas d'utilisation des entreprises et du gouvernement indiens. Leur approche s'appuie fortement sur les jeux de données et bancs d'essai en code ouvert produits par AI4Bharat, créant un cercle vertueux où la recherche universitaire alimente directement les produits commerciaux.
Sarvam a levé 41 millions de dollars en financement de série A en 2024, mené par Lightspeed Venture Partners avec la participation de Peak XV (anciennement Sequoia India) et Khosla Ventures. Cela en a fait l'une des entreprises en démarrage d'IA les mieux financées en Inde, mais peut-être plus significatif que le capital-risque est l'alignement stratégique avec les priorités du gouvernement indien. La India AI Mission appelle explicitement à des capacités d'IA souveraines, et l'accent de Sarvam sur les modèles en langues indiennes la positionne comme un partenaire naturel pour les projets d'infrastructure numérique gouvernementale — pensez à des services à l'échelle d'Aadhaar qui doivent communiquer avec les citoyens dans leur langue maternelle. Dans un paysage mondial de l'IA de plus en plus façonné par des questions de souveraineté, de gouvernance des données et de représentation culturelle, Sarvam représente le pari de l'Inde que les modèles d'IA les plus importants pour le prochain milliard d'internautes ne seront pas construits à San Francisco.