Agentes LLM agora escrevem código CUDA: AutoKernel enfrenta otimização GPU

A RightNow AI lançou o AutoKernel, um framework open-source que usa agentes LLM para otimizar automaticamente kernels GPU para modelos PyTorch. O sistema roda um loop autônomo: um agente modifica o código do kernel, avalia performance e correção, depois mantém melhorias ou reverte falhas usando commits git. Cada iteração leva cerca de 90 segundos, gerando 300-400 tentativas de otimização numa execução noturna de 10 horas. A abordagem atende diretamente aos achados do KernelBench, onde até LLMs de ponta atingiram performance baseline do PyTorch em menos de 20% dos problemas de kernel GPU.

Isso enfrenta um dos gargalos mais especializados da engenharia ML. Escrever kernels CUDA ou Triton de alta performance requer expertise simultânea em coalescência de memória, pressão de registros, tensor cores, e dezenas de outros parâmetros interdependentes—habilidades que levam anos para desenvolver e escalam mal conforme arquiteturas evoluem. Um único kernel matmul otimizado pode envolver mais de 200 linhas de código. O AutoKernel essencialmente mecaniza o workflow expert: escrever, testar, manter ou descartar, repetir.

O que é notável é a abordagem de engenharia ao invés da capacidade subjacente. Usar git para rastreamento de experimentos e arquivos TSV simples para resultados mantém o sistema livre de dependências e inspecionável. O tempo de iteração de 90 segundos—dividido entre verificação de correção, benchmarking de performance via do_bench do Triton, e raciocínio do agente—sugere que isso poderia ser prático para cargas de trabalho reais, não apenas demos de pesquisa.

Para desenvolvedores, isso representa uma mudança potencial de precisar de engenheiros CUDA especializados para simplesmente ter orçamento computacional para execuções de otimização noturnas. O teste real será se as otimizações do AutoKernel realmente superam kernels ajustados manualmente por engenheiros experientes, e se a abordagem generaliza além dos kernels específicos que testaram. Mas automatizar até otimização básica de kernels poderia democratizar ajuste de performance para equipes menores.

Agentes LLM agora escrevem código CUDA: AutoKernel enfrenta otimização GPU

Mais notícias