RightNow AI a lancé AutoKernel, un framework open-source qui utilise des agents LLM pour optimiser automatiquement les kernels GPU pour les modèles PyTorch. Le système fonctionne en boucle autonome : un agent modifie le code du kernel, évalue la performance et la justesse, puis conserve les améliorations ou annule les échecs en utilisant des commits git. Chaque itération prend environ 90 secondes, générant 300-400 tentatives d'optimisation lors d'une exécution nocturne de 10 heures. Cette approche répond directement aux conclusions de KernelBench, où même les LLM de pointe n'atteignaient les performances de base de PyTorch que dans moins de 20% des problèmes de kernel GPU.

Cela s'attaque à l'un des goulots d'étranglement les plus spécialisés de l'ingénierie ML. Écrire des kernels CUDA ou Triton haute performance nécessite une expertise simultanée en coalescence mémoire, pression des registres, tensor cores, et des dizaines d'autres paramètres interdépendants—des compétences qui prennent des années à développer et s'adaptent mal à l'évolution des architectures. Un seul kernel matmul optimisé peut impliquer plus de 200 lignes de code. AutoKernel mécanise essentiellement le workflow d'expert : écrire, tester, conserver ou rejeter, répéter.

Ce qui est notable, c'est l'approche d'ingénierie plutôt que la capacité sous-jacente. Utiliser git pour le suivi des expériences et des fichiers TSV simples pour les résultats garde le système sans dépendances et inspectable. Le temps d'itération de 90 secondes—réparti entre la vérification de justesse, l'évaluation de performance via do_bench de Triton, et le raisonnement de l'agent—suggère que cela pourrait être pratique pour de vraies charges de travail, pas juste des démos de recherche.

Pour les développeurs, cela représente un changement potentiel : passer du besoin d'ingénieurs CUDA spécialisés à simplement avoir un budget de calcul pour des exécutions d'optimisation nocturnes. Le vrai test sera de savoir si les optimisations d'AutoKernel battent réellement les kernels ajustés manuellement par des ingénieurs expérimentés, et si l'approche se généralise au-delà des kernels spécifiques qu'ils ont testés. Mais automatiser même l'optimisation de base des kernels pourrait démocratiser l'ajustement de performance pour les petites équipes.