Sheon Han de Wired a passé une journée à écrire du CUDA et en ressort avec une lecture utile aux builders : le moat de Nvidia, ce ne sont pas les H100 ou B200, c'est CUDA — la plateforme qu'Ian Buck et John Nickolls ont commencée chez Nvidia au milieu des années 2000, et les librairies empilées par-dessus depuis. Une multiplication matricielle qui prend trois lignes en PyTorch lui en a pris plus de cinquante en CUDA. C'est cette différence qui constitue le moat. PyTorch, TensorFlow et JAX sont tous CUDA-first ; sur le MI300X d'AMD — qui a plus de coeurs et plus de mémoire sur le papier qu'un H100 — les mêmes frameworks tournent moins vite parce que les kernels sont tunés pour le silicium Nvidia, pas parce que le matériel est plus lent. Les benchmarks indépendants le confirment systématiquement.

Sous CUDA, il y a PTX, le pseudo-assembleur de Nvidia. Le training run de DeepSeek V3 a célèbrement contourné l'abstraction CUDA pour écrire du PTX directement et extraire du throughput que les librairies de Nvidia laissaient sur la table. C'est la preuve que le moat peut être drainé. Le hic : le bassin mondial d'ingénieurs capables de faire ce travail est petit, et une part importante d'entre eux travaille chez Nvidia. ROCm d'AMD est livré depuis des années et son subreddit ressemble encore à un groupe de soutien. oneAPI d'Intel est sous respirateur. OpenCL — autrefois soutenu par Apple, AMD et Qualcomm — n'a jamais décollé. Le seul challenger crédible aujourd'hui est Modular, la compagnie de Chris Lattner qui développe Mojo et MAX, et Modular est encore loin de déloger la dépendance CUDA de PyTorch en production.

Pour l'économie des wrappers et le camp open-stack, c'est la réalité peu glamour : chaque promesse de « on tourne aussi sur AMD » doit se lire comme « on tolère une pénalité de performance, surtout invisible à l'inférence, lourde à l'entraînement ». Les frameworks comme vLLM et SGLang sont tunés CUDA par défaut ; les ports AMD existent mais accusent un retard. La conséquence pour le stack profond : tout fournisseur qui promet de l'inférence hardware-neutre paie la taxe CUDA d'une de deux manières — des kernels plus lents sur les puces concurrentes, ou une équipe d'ingénieurs qui écrit son propre PTX. C'est ce deuxième chemin qui fait fonctionner l'économie de R1 et V3 chez DeepSeek ; très peu de labos ont le staff pour le répliquer. Même les agents de codage trébuchent sur le code de kernels, ce qui veut dire que la voie « l'IA écrit ses propres kernels » qui dissoudrait le moat n'est pas encore opérationnelle.

Pour le builder de lundi matin : si ton stack est full-Nvidia, le moat se paie lui-même en performance que tu perdrais ailleurs. Si tu paries sur AMD, Intel ou une startup d'accélérateurs pour casser le lock-in, surveille deux signaux — l'adoption de Modular dans les pipelines de training réels (pas les benchmarks), et si Triton d'OpenAI ou PyTorch 3 de Meta abstrahent assez la couche kernel pour rendre les swaps de matériel pas chers. Tant qu'un de ces deux glissements ne se produit pas, la lecture de Han tient : Nvidia est une compagnie de matériel parce que c'est d'abord une compagnie de logiciel, et cette couche logicielle a vingt ans de profondeur.