SambaNova a été fondée en 2017 par Rodrigo Liang, Christopher Ré et Kunle Olukotun à l'Université Stanford. Ré est un MacArthur Fellow et l'une des figures les plus influentes de l'apprentissage automatique moderne (ses travaux ultérieurs sur les modèles d'espace d'états et l'IA centrée sur les données engendreraient plusieurs entreprises), tandis qu'Olukotun est un pionnier de l'architecture de puces qui a contribué au développement du concept des processeurs multicœurs. La thèse fondatrice était directe mais ambitieuse : les GPU de NVIDIA, bien que dominants, n'étaient pas spécifiquement conçus pour les charges de travail d'IA. Une puce construite de zéro pour l'IA — optimisant les schémas de flux de données, les exigences d'accès mémoire et le parallélisme propres aux réseaux de neurones — pourrait offrir des performances radicalement supérieures par watt et par dollar. SambaNova a levé plus de 1,1 milliard de dollars en capital-risque, dont une massive série D de 676 millions de dollars en 2021, en faisant l'une des entreprises en démarrage de matériel IA les mieux financées de l'histoire.
La technologie centrale de SambaNova est l'unité de flux de données reconfigurable (RDU), dont la version la plus récente est la puce SN40L. Contrairement aux GPU, qui exécutent des instructions selon un cycle relativement traditionnel de récupération-décodage-exécution adapté aux charges parallèles, le RDU est une architecture de flux de données — le calcul se fait à mesure que les données circulent à travers la puce, le schéma de traitement étant reconfiguré pour chaque modèle plutôt que de suivre un flux d'instructions fixe. En théorie, cela élimine bon nombre des inefficacités inhérentes à l'exécution de réseaux de neurones sur du matériel polyvalent. Le SN40L a été spécifiquement conçu avec une hiérarchie de mémoire à trois niveaux capable de contenir des modèles beaucoup plus volumineux en mémoire embarquée qu'un GPU typique, réduisant les transferts de mémoire externe coûteux qui constituent le goulot d'étranglement de l'inférence. SambaNova a affirmé que son architecture peut servir des modèles comme Llama 2 70B et Llama 3.1 405B à des vitesses rivalisant avec ou dépassant les offres les plus rapides de NVIDIA, et des bancs d'essai indépendants ont généralement confirmé ces affirmations pour des charges de travail spécifiques.
Le modèle d'affaires de SambaNova a connu une évolution significative. Initialement, l'entreprise vendait des appareils matériels sur site — des systèmes en baie complète fonctionnant sur des RDU — à de grandes entreprises et des agences gouvernementales. Ces systèmes DataScale ont trouvé des clients dans les laboratoires nationaux, les institutions financières et les applications de défense où la souveraineté des données et la performance comptaient plus que le coût. Mais le marché du matériel d'entreprise s'est avéré difficile : longs cycles de vente, intégration complexe et clients souvent pas prêts à déployer l'IA à l'échelle justifiant du matériel sur mesure. En 2023, SambaNova a pivoté vers l'inférence en nuage, lançant SambaNova Cloud comme service API où les développeurs pouvaient accéder à des modèles tournant sur des RDU sans acheter de matériel. Cela les a mis en concurrence directe avec Groq, une autre entreprise en démarrage de puces IA qui avait fait de « l'inférence la plus rapide » son slogan, ainsi qu'avec les offres d'inférence des grands fournisseurs d'infonuagique.
Le virage vers l'inférence en nuage a cristallisé le positionnement de SambaNova : la vitesse comme principal argument de vente. Leur API offre systématiquement parmi les taux de jetons par seconde les plus rapides du secteur, particulièrement pour les modèles plus volumineux où les avantages de la hiérarchie mémoire de l'architecture RDU sont les plus prononcés. Ils offraient un accès gratuit à des modèles populaires à code ouvert comme Llama et Qwen, utilisant la vitesse comme appât pour attirer des développeurs qui se convertiraient ensuite en utilisation payante. Cette stratégie reflétait ce que Groq avait fait avec ses puces LPU, créant une course à deux dans le créneau de l'« inférence rapide ». Pour les développeurs construisant des applications sensibles à la latence — agents en temps réel, assistants vocaux, outils de programmation interactifs — la différence de vitesse n'est pas qu'un joli chiffre de banc d'essai, mais un véritable facteur de différenciation produit qui affecte l'expérience utilisateur.
Chaque entreprise en démarrage de puces IA fait face au même défi : l'écosystème de NVIDIA est extraordinairement profond, et CUDA est la norme de facto pour le développement en IA. SambaNova a atténué cela en se concentrant sur l'inférence plutôt que sur l'entraînement — les charges d'inférence sont plus standardisées et moins dépendantes de la pile logicielle complète de CUDA — et en prenant en charge les modèles populaires à code ouvert de manière native, de sorte que les développeurs n'ont pas besoin d'apprendre de nouveaux outils. Mais l'entreprise nage à contre-courant d'une force puissante. NVIDIA améliore continuellement ses propres performances d'inférence, et les fournisseurs d'infonuagique construisent des puces d'inférence sur mesure (les TPU de Google, Inferentia et Trainium d'Amazon, Maia de Microsoft). La voie vers le succès à long terme de SambaNova requiert probablement soit un avantage de performance soutenu suffisamment important pour justifier le coût de changement d'écosystème, soit un partenariat avec un grand fournisseur d'infonuagique qui intégrerait l'inférence propulsée par RDU dans une plateforme existante. Avec plus d'un milliard de dollars levés et une technologie réelle derrière les affirmations, SambaNova a une chance réelle — mais la fenêtre pour prouver la thèse se rétrécit à mesure que la concurrence s'intensifie.