OpenAI et Broadcom ont devoile Jalapeno, la premiere puce IA sur mesure d'OpenAI, un accelerateur concu specifiquement pour faire tourner les grands modeles de langage plutot que pour les entrainer. Les deux entreprises ont confirme l'annonce, la presentant comme la premiere etape d'une plateforme de calcul multi-generationnelle qu'elles batissent ensemble. L'interet d'une puce comme celle-ci est etroit et important : l'inference, le travail consistant a repondre concretement a une requete, est la ou se concentre l'essentiel du cout une fois un modele deploye, et une puce optimisee uniquement pour cette tache peut le faire a moindre cout qu'un GPU polyvalent.

Le detail le plus frappant, c'est la rapidite de sa mise au point. OpenAI et Broadcom affirment etre passes de la conception initiale au tape-out de fabrication en environ neuf mois, ce qu'elles decrivent comme peut-etre le cycle de developpement le plus rapide jamais atteint pour une puce haute performance de ce type. Une partie de ce qui a rendu ce rythme possible, selon OpenAI, c'est que l'entreprise a utilise ses propres modeles pour accelerer certaines etapes du processus de conception et d'optimisation. Voila une affirmation discrete mais notable en soi : un laboratoire d'IA qui se sert de ses modeles actuels pour aider a construire le materiel qui fera tourner les suivants.

Sur le plan technique, l'architecture vise ce qui limite reellement la performance d'inference, c'est-a-dire le deplacement des donnees plutot que la puissance de calcul brute. Jalapeno est concue pour reduire ce deplacement de donnees et pour equilibrer calcul, memoire et reseau afin que l'utilisation reelle se rapproche bien davantage du pic theorique, la ou la plupart des puces restent largement en deca. Les premiers tests, encore une fois ceux d'OpenAI, indiquent une performance par watt nettement meilleure que l'etat de l'art actuel. Le plan prevoit un deploiement initial d'ici fin 2026 et une expansion dans les annees suivantes, avec des rapports selon lesquels Microsoft devrait absorber environ 40 pour cent de la production.

La raison pour laquelle cela compte depasse une simple puce. La mainmise de Nvidia sur l'IA repose sur la vente des GPU sur lesquels presque tout le monde entraine et fait tourner ses modeles, a des marges qui transforment chaque token servi en un paiement vers l'amont. Google a construit ses TPU et Amazon a construit Trainium et Inferentia pour exactement cette raison : a l'echelle d'OpenAI, concevoir son propre silicium revient moins cher que de louer eternellement celui d'un autre. Jalapeno, c'est OpenAI qui rejoint ce club, une tentative de posseder une plus grande part de la pile sous ses produits afin que servir de l'intelligence coute moins cher et depende moins d'un fournisseur unique.

Une lecture honnete s'accompagne de limites. C'est un accelerateur d'inference, et non une puce d'entrainement, donc il ne touche pas la partie de la chaine ou Nvidia est le plus solidement implante. Les chiffres de performance viennent d'OpenAI elle-meme et n'ont pas ete testes de maniere independante, la puce ne tourne pas encore a grande echelle, et le silicium sur mesure a une longue histoire de meilleures apparences sur une diapositive que dans un centre de donnees. Mais la combinaison du calendrier de neuf mois, d'un acheteur hyperscaler nomme et d'un motif strategique clair rend le signal difficile a manquer. Les entreprises qui peuvent se permettre de construire leurs propres puces le font, et l'economie de qui paie qui dans l'IA commence a basculer.