Les techniques de jailbreak courantes incluent : le jeu de rôle (« Imagine que tu es une IA sans restrictions »), l'encodage (demander en Base64 ou en verlan), les attaques many-shot (fournir de nombreux exemples du comportement dangereux pour établir un pattern), et les attaques en crescendo (escalader graduellement de requêtes bénignes à nocives au fil d'une conversation). Des techniques plus sophistiquées exploitent des comportements spécifiques du modèle, comme la tendance à continuer les patterns établis ou à être utile quand on demande des informations « éducatives ».
Les labos d'IA investissent massivement dans le red-teaming — tenter systématiquement de jailbreaker leurs propres modèles avant leur sortie. Quand une nouvelle technique de jailbreak est découverte, elle est patchée par un entraînement de sécurité supplémentaire ou des filtres au niveau système. Mais la surface d'attaque est vaste : le langage naturel est infiniment flexible, et de nouvelles techniques émergent constamment. La réalité pratique est que des adversaires déterminés peuvent généralement trouver un jailbreak pour tout modèle public, c'est pourquoi la défense en profondeur (multiples couches de sécurité, incluant le filtrage de sortie et la surveillance) compte plus que toute technique de prévention unique.
Le défi est que les filtres de sécurité refusent parfois des requêtes légitimes. Un professionnel de santé qui pose des questions sur les interactions médicamenteuses, un chercheur en sécurité qui demande des informations sur les vulnérabilités, ou un romancier qui écrit une scène de conflit pourraient tous déclencher des refus. Un entraînement de sécurité trop agressif produit des modèles qui sont « sûrs » mais inutiles. L'art de l'alignement consiste à trouver le bon équilibre — refuser les requêtes véritablement nocives tout en restant utile pour les usages légitimes.