Deux équipes de recherche indépendantes ont démontré que les attaques Rowhammer contre les GPU Ampere de Nvidia peuvent maintenant réaliser une compromission complète du système, escaladant d'une corruption de mémoire GPU vers un contrôle complet du CPU hôte. Les attaques, surnommées GDDRHammer et GeForge, exploitent les vulnérabilités de manipulation de bits dans la mémoire GDDR pour obtenir un accès arbitraire en lecture/écriture à toute la mémoire CPU. Contrairement aux recherches précédentes sur les attaques Rowhammer GPU qui n'obtenaient que huit manipulations de bits et dégradaient la sortie des réseaux de neurones, ces nouvelles attaques offrent un contrôle système au niveau root — mais seulement quand la gestion mémoire IOMMU est désactivée, ce qui reste le paramètre BIOS par défaut.
C'est important parce que les GPU haute performance coûtant plus de 8 000 $ sont régulièrement partagés entre des dizaines d'utilisateurs dans les environnements cloud. Ce qui a commencé comme un vecteur d'attaque spécifique au CPU en 2014 a maintenant franchi les frontières des composants, transformant le calcul GPU en une porte dérobée potentielle vers l'ensemble du système. L'évolution décennale du Rowhammer — des exploits DDR3 aux contournements DDR4 jusqu'aux attaques basées sur le réseau — a atteint un nouveau jalon où les charges de travail GPU peuvent compromettre l'infrastructure sous-jacente.
La recherche révèle un angle mort critique dans la sécurité de l'infrastructure IA. Alors que les fournisseurs cloud ont renforcé la mémoire CPU et implémenté diverses mitigations Rowhammer au fil des ans, la mémoire GPU est restée largement négligée. Les attaques nécessitent un accès physique ou l'exécution de code malveillant sur le GPU, limitant le risque immédiat, mais démontrent comment l'infrastructure IA partagée crée de nouvelles surfaces d'attaque que les modèles de sécurité traditionnels n'adressent pas.
Pour les développeurs qui exécutent des charges de travail IA sur une infrastructure partagée, cela souligne l'importance d'activer les protections IOMMU et de comprendre les mécanismes d'isolation GPU de votre fournisseur cloud. La surface d'attaque s'agrandit à mesure que l'IA passe de l'expérimentation à la production — votre tâche d'entraînement de réseau de neurones pourrait théoriquement être un vecteur de compromission système si une isolation appropriée n'est pas en place.
