La startup Wafer entraîne des modèles d'IA pour optimiser automatiquement les logiciels pour n'importe quelle architecture de puce, brisant potentiellement l'emprise de Nvidia sur l'écosystème logiciel de performance. L'entreprise utilise l'apprentissage par renforcement sur des modèles open source pour écrire du code kernel et ajoute des « harnais agentiques » aux modèles comme Claude et GPT-4 pour améliorer leurs capacités de codage spécifiques au matériel. Wafer a déjà sécurisé des partenariats avec AMD et Amazon, levant 4 millions $ d'investisseurs notables incluant Jeff Dean de Google et Wojciech Zaremba d'OpenAI.

C'est important parce que l'évaluation de 4 billions $ de Nvidia n'est pas juste construite sur du silicium supérieur—c'est leur écosystème logiciel CUDA qui rend leurs puces plus faciles à programmer et optimiser. Comme le souligne le PDG de Wafer Emilio Andere, « le meilleur matériel AMD, le meilleur matériel Trainium, les meilleurs TPUs » égalent maintenant la puissance de calcul brute de Nvidia. Le goulot d'étranglement a été les ingénieurs de performance rares et coûteux nécessaires pour débloquer ce potentiel. Si l'IA peut automatiser ce travail d'optimisation, soudainement chaque puce devient aussi accessible que celle de Nvidia.

Le narratif plus large de « démocratisation de l'IA » s'étend bien au-delà des puces. Les discussions de l'industrie révèlent des patterns similaires en agriculture, où les experts débattent si l'IA peut rendre la tech agricole avancée accessible aux petits agriculteurs, et dans les interfaces informatiques générales, où certains argumentent que les large language models deviendront l'UI universelle qui rend tous les logiciels plus faciles à utiliser. Mais le problème d'optimisation des puces est plus concret—il s'agit d'automatiser une tâche d'ingénierie spécifique et mesurable plutôt que des promesses vagues sur « autonomiser tout le monde ».

Pour les développeurs, ceci pourrait remodeler les choix d'infrastructure. Si Wafer et des outils similaires peuvent optimiser de façon fiable le code pour des puces alternatives, la prime de pénurie de GPU et le lock-in CUDA deviennent moins pertinents. Le vrai test sera si les optimisations générées par IA peuvent égaler la performance finement ajustée à la main dans les workloads de production, pas juste les benchmarks.