Le terme « red teaming » vient des exercices militaires de la Guerre froide où une équipe adversaire désignée (rouge) attaquait les plans de l'équipe de défense (bleue). En cybersécurité, cela a évolué vers la pratique de recruter des pirates éthiques pour trouver les vulnérabilités avant les malveillants. Le red teaming en IA applique la même philosophie : on suppose que le modèle a des faiblesses, puis on les cherche systématiquement. La différence clé avec le test d'intrusion traditionnel est que les modèles d'IA échouent de manière floue et probabiliste — il n'y a pas un seul exploit qui « compromet » un modèle de langage, mais plutôt un paysage de prompts et de contextes où le modèle se comporte de façon inattendue ou nuisible.
Le red teaming moderne en IA couvre typiquement plusieurs catégories de défaillance. Les tests de sécurité sondent la génération de contenu nuisible — peut-on amener le modèle à produire des instructions pour des armes, du contenu détaillé d'automutilation ou du matériel d'exploitation d'enfants ? Les tests de biais et d'équité vérifient si le modèle traite les groupes démographiques différemment ou renforce les stéréotypes. Les tests de factualité cherchent les hallucinations confiantes, surtout dans les domaines à hauts enjeux comme la médecine et le droit. Les tests de confidentialité vérifient si le modèle va régurgiter des informations personnelles de ses données d'entraînement (des chercheurs ont extrait des données d'entraînement textuelles de GPT-3, y compris des numéros de téléphone et des adresses courriel). Et les évaluations de capacités déterminent si le modèle pourrait aider à des tâches réellement dangereuses comme la conception d'armes biologiques ou les cyberattaques — ce sont ces évaluations qui déterminent si un modèle est sûr à déployer.
La pratique s'est professionnalisée rapidement. Anthropic, OpenAI, Google DeepMind et Meta font tous tourner des équipes rouges internes avant les lancements majeurs, et ils font de plus en plus appel à des spécialistes externes. Anthropic s'est associé à des experts en biosécurité et en cybersécurité pour les évaluations pré-lancement de Claude. OpenAI a mené un exercice de red teaming externe à grande échelle pour GPT-4 avec plus de 50 experts. Des startups comme HackerOne et Scale AI ont construit des plateformes de red-teaming-as-a-service. Il y a aussi une communauté croissante de red teamers indépendants en IA — l'événement de Red Teaming sur l'IA Générative de DEF CON en 2023 a réuni des milliers de participants testant des modèles de plusieurs fournisseurs simultanément, et a révélé des vulnérabilités réelles que les entreprises ont ensuite corrigées.
Le red teaming automatisé est un complément de plus en plus important aux tests humains. L'idée est d'utiliser un modèle d'IA pour générer des prompts adversariels qui testent les défenses d'un autre modèle. Les techniques incluent les attaques basées sur le gradient (Greedy Coordinate Gradient, ou GCG, qui trouve des suffixes adversariels absurdes mais efficaces), les approches LLM-comme-attaquant (où un modèle « rouge » affine itérativement des prompts de jailbreak en fonction des réponses de la cible), et le fuzzing (mutation systématique d'attaques connues pour en trouver de nouvelles variantes). Anthropic et d'autres laboratoires utilisent ces méthodes automatisées pour tester à grande échelle — un red teamer humain peut essayer des centaines d'attaques en une session, tandis qu'un système automatisé peut en essayer des millions. Le bémol est que les méthodes automatisées tendent à trouver des défaillances « étranges » (réponses à des tokens incompréhensibles) tandis que les humains sont meilleurs pour trouver des vecteurs d'attaque socialement réalistes (le genre que de vrais utilisateurs tenteraient).
Un piège pratique pour quiconque fait du red teaming : les résultats sont très sensibles à la façon dont on cadre l'exercice. Si on ne teste que les défaillances qu'on s'attend à trouver, on ne trouvera que celles-là. Le red teaming le plus précieux vient souvent de personnes ayant une expertise de domaine sans lien avec l'IA — un travailleur social pourrait repérer des schémas de manipulation auxquels un chercheur en sécurité ne penserait pas, tandis qu'un chimiste saurait quelles instructions de synthèse sont réellement dangereuses et lesquelles sont des connaissances de manuel. C'est pourquoi les équipes rouges diversifiées trouvent systématiquement plus de vulnérabilités, et des vulnérabilités différentes, que les équipes homogènes. C'est aussi pourquoi le red teaming n'est jamais « terminé » — chaque nouveau cas d'usage, chaque nouvelle intégration, chaque mise à jour de modèle peut introduire des modes de défaillance que les tests précédents n'ont pas couverts.