RightNow AI lanzó AutoKernel, un framework de código abierto que usa agentes LLM para optimizar automáticamente kernels GPU para modelos PyTorch. El sistema ejecuta un bucle autónomo: un agente modifica el código del kernel, evalúa el rendimiento y la corrección, luego mantiene las mejoras o revierte los fallos usando commits de git. Cada iteración toma aproximadamente 90 segundos, produciendo 300-400 intentos de optimización en una ejecución nocturna de 10 horas. El enfoque aborda directamente los hallazgos de KernelBench, donde incluso los LLM más avanzados igualaron el rendimiento base de PyTorch en menos del 20% de los problemas de kernel GPU.
Esto aborda uno de los cuellos de botella más especializados de la ingeniería ML. Escribir kernels CUDA o Triton de alto rendimiento requiere experiencia simultánea en coalescencia de memoria, presión de registros, tensor cores, y docenas de otros parámetros interdependientes—habilidades que toman años desarrollar y escalan mal conforme las arquitecturas evolucionan. Un solo kernel matmul optimizado puede involucrar más de 200 líneas de código. AutoKernel esencialmente mecaniza el flujo de trabajo experto: escribir, probar, mantener o descartar, repetir.
Lo notable es el enfoque de ingeniería en lugar de la capacidad subyacente. Usar git para el seguimiento de experimentos y archivos TSV simples para resultados mantiene el sistema libre de dependencias e inspeccionable. El tiempo de iteración de 90 segundos—dividido entre verificación de corrección, benchmarking de rendimiento vía do_bench de Triton, y razonamiento del agente—sugiere que esto podría ser práctico para cargas de trabajo reales, no solo demos de investigación.
Para los desarrolladores, esto representa un cambio potencial de necesitar ingenieros CUDA especializados a simplemente tener presupuesto computacional para ejecuciones de optimización nocturnas. La prueba real será si las optimizaciones de AutoKernel realmente superan los kernels ajustados manualmente por ingenieros experimentados, y si el enfoque se generaliza más allá de los kernels específicos que han probado. Pero automatizar incluso la optimización básica de kernels podría democratizar el ajuste de rendimiento para equipos más pequeños.
