Duas equipes de pesquisa independentes demonstraram que ataques Rowhammer contra GPUs Ampere da Nvidia agora podem alcançar comprometimento completo do sistema, escalando de corrupção de memória GPU para controle total do CPU host. Os ataques, apelidados de GDDRHammer e GeForge, exploram vulnerabilidades de manipulação de bits na memória GDDR para obter acesso arbitrário de leitura/escrita a toda a memória CPU. Ao contrário de pesquisas anteriores de Rowhammer em GPU que conseguiam apenas oito manipulações de bits e degradavam a saída de redes neurais, esses novos ataques entregam controle do sistema em nível root—mas apenas quando o gerenciamento de memória IOMMU está desabilitado, o que permanece como configuração padrão do BIOS.
Isso importa porque GPUs de alto desempenho custando mais de $8.000 são rotineiramente compartilhadas entre dezenas de usuários em ambientes cloud. O que começou como um vetor de ataque específico de CPU em 2014 agora cruzou fronteiras de componentes, transformando computação GPU em uma porta dos fundos potencial para todo o sistema. A evolução de uma década do Rowhammer—de exploits DDR3 para bypasses DDR4 até ataques baseados em rede—alcançou um novo marco onde cargas de trabalho GPU podem comprometer a infraestrutura subjacente.
A pesquisa revela um ponto cego crítico na segurança de infraestrutura de IA. Enquanto provedores cloud endureceram a memória CPU e implementaram várias mitigações de Rowhammer ao longo dos anos, a memória GPU permaneceu amplamente negligenciada. Os ataques requerem acesso físico ou execução de código malicioso na GPU, limitando o risco imediato, mas demonstram como infraestrutura de IA compartilhada cria novas superfícies de ataque que modelos de segurança tradicionais não abordam.
Para desenvolvedores executando cargas de trabalho de IA em infraestrutura compartilhada, isso destaca a importância de habilitar proteções IOMMU e entender os mecanismos de isolamento GPU do seu provedor cloud. A superfície de ataque se expande conforme a IA move de experimental para produção—seu trabalho de treinamento de rede neural poderia teoricamente ser um vetor para comprometimento do sistema se isolamento apropriado não estiver no lugar.
