A Índia tem mais de 1,4 bilhão de pessoas, 22 idiomas oficialmente reconhecidos e centenas de dialetos — mas até muito recentemente, os modelos de IA disponíveis para desenvolvedores e empresas indianas eram construídos quase inteiramente sobre dados de treinamento centrados no inglês com idiomas indianos adicionados como algo secundário. A Sarvam AI foi fundada em 2023 por Vivek Raghavan e o pesquisador AI4Bharat Pratyush Kumar para mudar essa equação fundamentalmente. Sua tese era direta mas ambiciosa: a Índia não precisa de wrappers localizados em torno de modelos do Vale do Silício. Precisa de foundation models construídos do zero sobre dados de idiomas indianos, treinados por pessoas que entendem a estrutura linguística, o contexto cultural e os padrões de uso do mundo real do hindi, tâmil, télugu, bengali, marata, canaresa e além. Ambos os fundadores trouxeram profunda experiência do AI4Bharat, a iniciativa de pesquisa do IIT Madras que já havia produzido alguns dos datasets e modelos abertos mais significativos para idiomas indianos.
A Sarvam não surgiu no vácuo. O ecossistema de IA da Índia vinha ganhando momento por anos, impulsionado por iniciativas governamentais como a India AI Mission (que comprometeu mais de US$ 1 bilhão em infraestrutura de IA), um pool massivo de talentos de engenharia dos IITs e outras instituições, e um mercado doméstico que empresas globais de IA consistentemente subestimaram. O problema de usar GPT-4 ou Claude para tarefas em idiomas indianos não é apenas qualidade de tradução — é que esses modelos carecem de compreensão profunda de code-switching (a mistura constante de hindi e inglês na conversa cotidiana), expressões regionais, variações de escrita e a pragmática de comunicação em uma sociedade linguisticamente diversa. A Sarvam se posicionou como a empresa que fecharia essa lacuna, não competindo com a OpenAI em benchmarks de inglês, mas sendo definitivamente a melhor nos idiomas que 1,4 bilhão de pessoas realmente falam todo dia.
A família de modelos da Sarvam inclui Sarvam-1 (um LLM multilíngue otimizado para idiomas indianos), Sarvam-2B (uma variante menor e eficiente projetada para implantação on-device) e modelos especializados para reconhecimento de fala e text-to-speech em idiomas indianos. Seus modelos de voz Saaras lidam com os desafios particulares da fala indiana — diversidade de sotaques, ambientes ruidosos e a complexidade fonológica das famílias de línguas dravidiana e indo-ariana — com precisão que alternativas internacionais simplesmente não conseguem igualar. A empresa também construiu APIs Sarvam que fornecem capacidades de tradução, transliteração e IA conversacional adaptadas para casos de uso empresariais e governamentais indianos. Sua abordagem se apoia fortemente nos datasets e benchmarks open source produzidos pelo AI4Bharat, criando um ciclo virtuoso onde pesquisa acadêmica alimenta diretamente produtos comerciais.
A Sarvam levantou US$ 41 milhões em financiamento Série A em 2024, liderado pela Lightspeed Venture Partners com participação da Peak XV (anteriormente Sequoia India) e Khosla Ventures. Isso a tornou uma das startups de IA mais bem financiadas da Índia, mas talvez mais significativo que o dinheiro de VC é o alinhamento estratégico com prioridades do governo indiano. A India AI Mission explicitamente demanda capacidades soberanas de IA, e o foco da Sarvam em modelos de idiomas indianos a posiciona como uma parceira natural para projetos de infraestrutura digital governamental — pense em serviços na escala do Aadhaar que precisam se comunicar com cidadãos em seu idioma nativo. Em um cenário global de IA cada vez mais moldado por questões de soberania, governança de dados e representação cultural, a Sarvam representa a aposta da Índia de que os modelos de IA mais importantes para o próximo bilhão de usuários de internet não serão construídos em San Francisco.