India tiene mas de 1,400 millones de personas, 22 idiomas reconocidos oficialmente y cientos de dialectos — pero hasta hace muy poco, los modelos de IA disponibles para desarrolladores y empresas indias estaban construidos casi completamente sobre datos de entrenamiento centrados en el ingles, con idiomas indios anadidos como una ocurrencia tardia. Sarvam AI fue fundada en 2023 por Vivek Raghavan y el investigador de AI4Bharat Pratyush Kumar para cambiar esa ecuacion de forma fundamental. Su tesis era directa pero ambiciosa: India no necesita wrappers localizados sobre modelos de Silicon Valley. Necesita modelos fundacionales construidos desde cero con datos de idiomas indios, entrenados por personas que entienden la estructura linguistica, el contexto cultural y los patrones de uso real del hindi, tamil, telugu, bengali, marathi, kannada y mas. Ambos fundadores trajeron experiencia profunda de AI4Bharat, la iniciativa de investigacion del IIT Madras que ya habia producido algunos de los datasets abiertos y modelos mas significativos para idiomas indios.
Sarvam no surgio en el vacio. El ecosistema de IA de India habia estado ganando impulso durante anos, impulsado por iniciativas gubernamentales como la India AI Mission (que comprometio mas de $1,000 millones para infraestructura de IA), un grupo masivo de talento de ingenieria de los IITs y otras instituciones, y un mercado domestico que las empresas globales de IA consistentemente desatendian. El problema de usar GPT-4 o Claude para tareas en idiomas indios no es solo la calidad de la traduccion — es que estos modelos carecen de comprension profunda del code-switching (la mezcla constante de hindi e ingles en la conversacion cotidiana), modismos regionales, variaciones de escritura y la pragmatica de la comunicacion en una sociedad linguisticamente diversa. Sarvam se posiciono como la empresa que cerraria esta brecha, no compitiendo con OpenAI en benchmarks de ingles sino siendo definitivamente la mejor en los idiomas que 1,400 millones de personas realmente hablan todos los dias.
La familia de modelos de Sarvam incluye Sarvam-1 (un LLM multilinguee optimizado para idiomas indios), Sarvam-2B (una variante mas pequena y eficiente disenada para despliegue en dispositivos) y modelos especializados para reconocimiento de voz y texto a voz en idiomas indios. Sus modelos de voz Saaras manejan los desafios particulares del habla india — diversidad de acentos, ambientes ruidosos y la complejidad fonologica de las familias linguisticas dravidica e indoaria — con una precision que las alternativas internacionales simplemente no pueden igualar. La empresa tambien ha construido APIs de Sarvam que proporcionan capacidades de traduccion, transliteracion e IA conversacional adaptadas para casos de uso empresarial y gubernamental en India. Su enfoque se apoya fuertemente en los datasets abiertos y benchmarks producidos por AI4Bharat, creando un ciclo virtuoso donde la investigacion academica alimenta directamente productos comerciales.
Sarvam recaudo $41 millones en financiamiento Serie A en 2024, liderado por Lightspeed Venture Partners con participacion de Peak XV (anteriormente Sequoia India) y Khosla Ventures. Esto la convirtio en una de las startups de IA mejor financiadas de India, pero quizas mas significativo que el dinero de VC es la alineacion estrategica con las prioridades del gobierno indio. La India AI Mission pide explicitamente capacidades de IA soberana, y el enfoque de Sarvam en modelos de idiomas indios la posiciona como un socio natural para proyectos de infraestructura digital gubernamental — piensa en servicios a escala de Aadhaar que necesitan comunicarse con los ciudadanos en su idioma nativo. En un panorama global de IA cada vez mas moldeado por preguntas de soberania, gobernanza de datos y representacion cultural, Sarvam representa la apuesta de India de que los modelos de IA mas importantes para los proximos mil millones de usuarios de internet no se construiran en San Francisco.