Dos equipos de investigación independientes han demostrado que los ataques Rowhammer contra las GPU Ampere de Nvidia ahora pueden lograr un compromiso completo del sistema, escalando desde corrupción de memoria GPU hasta control total del CPU host. Los ataques, llamados GDDRHammer y GeForge, explotan vulnerabilidades de manipulación de bits en memoria GDDR para obtener acceso arbitrario de lectura/escritura a toda la memoria CPU. A diferencia de investigaciones previas de Rowhammer en GPU que lograban solo ocho manipulaciones de bits y degradaban la salida de redes neuronales, estos nuevos ataques entregan control del sistema a nivel root—pero solo cuando la gestión de memoria IOMMU está deshabilitada, lo cual sigue siendo la configuración BIOS predeterminada.
Esto importa porque las GPU de alto rendimiento que cuestan más de $8,000 son rutinariamente compartidas entre docenas de usuarios en entornos cloud. Lo que comenzó como un vector de ataque específico de CPU en 2014 ahora ha cruzado fronteras de componentes, convirtiendo el cómputo GPU en una puerta trasera potencial hacia todo el sistema. La evolución de una década del Rowhammer—desde exploits DDR3 hasta bypasses DDR4 y ataques basados en red—ha alcanzado un nuevo hito donde las cargas de trabajo GPU pueden comprometer la infraestructura subyacente.
La investigación revela un punto ciego crítico en la seguridad de infraestructura de IA. Mientras que los proveedores cloud han endurecido la memoria CPU e implementado varias mitigaciones de Rowhammer a lo largo de los años, la memoria GPU permaneció ampliamente pasada por alto. Los ataques requieren acceso físico o ejecución de código malicioso en la GPU, limitando el riesgo inmediato, pero demuestran cómo la infraestructura de IA compartida crea nuevas superficies de ataque que los modelos de seguridad tradicionales no abordan.
Para desarrolladores ejecutando cargas de trabajo de IA en infraestructura compartida, esto destaca la importancia de habilitar protecciones IOMMU y entender los mecanismos de aislamiento GPU de tu proveedor cloud. La superficie de ataque se expande conforme la IA se mueve de experimental a producción—tu trabajo de entrenamiento de red neuronal podría teóricamente ser un vector para compromiso del sistema si el aislamiento apropiado no está en su lugar.
