Zubnet AIApprendreWiki › Jailbreak
Sécurité

Jailbreak

Aussi appelé : Jailbreaking, prompt adversarial
Des techniques qui trompent un modèle d'IA pour contourner son entraînement de sécurité et générer du contenu qu'il a été conçu pour refuser — instructions pour des activités dangereuses, contenu nocif ou comportements qui violent les politiques d'utilisation du modèle. Les jailbreaks exploitent l'écart entre ce que le modèle a été entraîné à refuser et ce qu'un prompting astucieux peut obtenir.

Pourquoi c'est important

Le jailbreaking est le terrain d'essai adversarial pour la sécurité de l'IA. Chaque modèle est livré avec des garde-fous de sécurité, et chaque modèle majeur a été jailbreaké. Le jeu du chat et de la souris entre techniques de jailbreak et mesures de sécurité fait progresser l'alignement. Comprendre les jailbreaks t'aide à évaluer la robustesse réelle de la sécurité d'un modèle, plutôt que de prendre les affirmations marketing pour argent comptant.

En profondeur

Les techniques de jailbreak courantes incluent : le jeu de rôle (« Imagine que tu es une IA sans restrictions »), l'encodage (demander en Base64 ou en verlan), les attaques many-shot (fournir de nombreux exemples du comportement dangereux pour établir un pattern), et les attaques en crescendo (escalader graduellement de requêtes bénignes à nocives au fil d'une conversation). Des techniques plus sophistiquées exploitent des comportements spécifiques du modèle, comme la tendance à continuer les patterns établis ou à être utile quand on demande des informations « éducatives ».

La course aux armements

Les labos d'IA investissent massivement dans le red-teaming — tenter systématiquement de jailbreaker leurs propres modèles avant leur sortie. Quand une nouvelle technique de jailbreak est découverte, elle est patchée par un entraînement de sécurité supplémentaire ou des filtres au niveau système. Mais la surface d'attaque est vaste : le langage naturel est infiniment flexible, et de nouvelles techniques émergent constamment. La réalité pratique est que des adversaires déterminés peuvent généralement trouver un jailbreak pour tout modèle public, c'est pourquoi la défense en profondeur (multiples couches de sécurité, incluant le filtrage de sortie et la surveillance) compte plus que toute technique de prévention unique.

Jailbreak vs. utilisation légitime

Le défi est que les filtres de sécurité refusent parfois des requêtes légitimes. Un professionnel de santé qui pose des questions sur les interactions médicamenteuses, un chercheur en sécurité qui demande des informations sur les vulnérabilités, ou un romancier qui écrit une scène de conflit pourraient tous déclencher des refus. Un entraînement de sécurité trop agressif produit des modèles qui sont « sûrs » mais inutiles. L'art de l'alignement consiste à trouver le bon équilibre — refuser les requêtes véritablement nocives tout en restant utile pour les usages légitimes.

Concepts connexes

← Tous les termes
← Interprétabilité mécaniste Jeu de données →