A SambaNova foi fundada em 2017 por Rodrigo Liang, Christopher Ré e Kunle Olukotun na Universidade de Stanford. Ré é bolsista MacArthur e uma das figuras mais influentes no machine learning moderno (seu trabalho posterior em state-space models e IA centrada em dados geraria múltiplas empresas), enquanto Olukotun é um pioneiro em arquitetura de chips que ajudou a desenvolver o conceito de processadores multicore. A tese fundadora era direta mas ambiciosa: as GPUs da NVIDIA, embora dominantes, não foram projetadas especificamente para cargas de trabalho de IA. Um chip construído do zero para IA — otimizando para os padrões específicos de fluxo de dados, requisitos de acesso à memória e paralelismo que redes neurais demandam — poderia entregar performance dramaticamente melhor por watt e por dólar. A SambaNova levantou mais de US$ 1,1 bilhão em investimento de venture capital, incluindo uma massiva Série D de US$ 676 milhões em 2021, tornando-a uma das startups de hardware de IA mais bem financiadas da história.
A tecnologia central da SambaNova é a Reconfigurable Dataflow Unit (RDU), mais recentemente o chip SN40L. Diferente das GPUs, que executam instruções em um ciclo fetch-decode-execute relativamente tradicional adaptado para cargas paralelas, a RDU é uma arquitetura de fluxo de dados — a computação acontece conforme os dados fluem pelo chip, com o padrão de processamento reconfigurado para cada modelo em vez de seguir um fluxo de instruções fixo. Em teoria, isso elimina muitas das ineficiências inerentes a rodar redes neurais em hardware de propósito geral. O SN40L especificamente foi projetado com uma hierarquia de memória de três níveis que pode manter modelos muito maiores na memória on-chip do que uma GPU típica, reduzindo as caras transferências de memória off-chip que gargalham a inferência. A SambaNova alegou que sua arquitetura pode servir modelos como Llama 2 70B e Llama 3.1 405B em velocidades que rivalizam ou excedem as ofertas mais rápidas da NVIDIA, e benchmarks independentes geralmente confirmaram essas alegações para cargas de trabalho específicas.
O modelo de negócios da SambaNova passou por uma evolução significativa. Inicialmente, a empresa vendia appliances de hardware on-premise — sistemas full-rack rodando RDUs — para grandes empresas e agências governamentais. Esses sistemas DataScale encontraram clientes em laboratórios nacionais, instituições financeiras e aplicações de defesa onde soberania de dados e performance importavam mais que custo. Mas o mercado de hardware enterprise se provou desafiador: ciclos de venda longos, integração complexa e clientes que frequentemente não estavam prontos para implantar IA na escala que justificava hardware customizado. Em 2023, a SambaNova pivotou para inferência baseada em nuvem, lançando a SambaNova Cloud como um serviço de API onde desenvolvedores podiam acessar modelos rodando em RDUs sem comprar hardware. Isso os colocou em competição direta com a Groq, outra startup de chip de IA que havia feito de "inferência mais rápida" sua marca registrada, assim como com as ofertas de inferência dos principais provedores de nuvem.
O pivot para inferência em nuvem cristalizou o posicionamento da SambaNova: velocidade como principal ponto de venda. Sua API consistentemente entrega algumas das maiores taxas de tokens por segundo da indústria, particularmente para modelos maiores onde as vantagens de hierarquia de memória da arquitetura RDU são mais pronunciadas. Ofereceram acesso gratuito a modelos open source populares como Llama e Qwen, usando velocidade como gancho para atrair desenvolvedores que depois converteriam para uso pago. Essa estratégia espelhou o que a Groq fez com seus chips LPU, criando uma corrida a dois no nicho de "inferência rápida". Para desenvolvedores construindo aplicações sensíveis a latência — agentes em tempo real, assistentes de voz, ferramentas interativas de código — a diferença de velocidade não é apenas um número bonito de benchmark mas um diferencial genuíno de produto que afeta a experiência do usuário.
Toda startup de chip de IA em última instância enfrenta o mesmo desafio: o ecossistema da NVIDIA é extraordinariamente profundo, e CUDA é o padrão de facto para desenvolvimento de IA. A SambaNova mitigou isso focando em inferência em vez de treinamento — cargas de inferência são mais padronizadas e menos dependentes da stack completa de software CUDA — e suportando modelos open source populares prontos para uso para que desenvolvedores não precisem aprender novas ferramentas. Mas a empresa nada contra uma corrente poderosa. A NVIDIA melhora continuamente sua própria performance de inferência, e provedores de nuvem estão construindo chips customizados de inferência (TPUs do Google, Inferentia e Trainium da Amazon, Maia da Microsoft). O caminho da SambaNova para sucesso a longo prazo provavelmente requer ou uma vantagem de performance sustentada grande o suficiente para justificar o custo de troca de ecossistema, ou uma parceria com um grande provedor de nuvem que agrupe inferência alimentada por RDU em uma plataforma existente. Com mais de um bilhão de dólares levantados e tecnologia real por trás das alegações, a SambaNova tem uma chance genuína — mas a janela para provar a tese está se estreitando conforme a competição se intensifica.