Dreadnode a publié de la research utilisant un agent de red-teaming automatisé — Kimi 2.5 de Moonshot AI servant comme attaquant et juge — contre Llama Scout de Meta (17 milliards de paramètres, released avril 2025). Headline : 85% de succès à travers 68 goals adversarial, trois types d'attaque avec cinq variants transform. Crescendo (softening itératif du refusal), Graph of Attacks with Pruning (search à travers l'espace d'attaque), et persona-based transforms (skeleton-key role-play) chacun hit 100%. Encoding Base64 75%. Translation vers low-resource languages aussi testée. Le paper acknowledge que les humains outperform encore l'agent sur le reasoning long-horizon et le social engineering complexe. Pas de comparaison formelle avec des opérateurs humains experts conduite. Citation : arxiv.org/pdf/2410.02828.
Le setup « Kimi 2.5 comme attaquant ET juge » c'est l'innovation méthodologique. Le red-teaming humain standard a un attaquant (red team) et un juge séparé (eval team ou safety org). Remplacer les deux par la même LLM permet de scaler à 68 goals adversarial à machine speed — beaucoup plus que ce que les red teams humaines peuvent rouler sur un budget comparable. Crescendo, Graph of Attacks with Pruning, et persona-based skeleton-key attacks sont toutes des techniques connues de la litérature safety-research ; ce qui est new c'est l'agent automatisé qui les applique à scale avec de la haute reproducibility. L'encoding Base64 et la translation vers low-resource languages sont des obfuscations plus simples qui defeat encore le current safety training dans une fraction non-triviale des cases. Le 85% overall plus 100% sur trois types d'attaque veulent dire : contre Llama Scout, le red-teaming automatisé trouve un jailbreak qui marche essentially à chaque fois sur la plupart des catégories d'attaque. Llama Scout being open-weight matter pour le threat model — n'importe qui peut download et étudier, n'importe qui peut rouler le même pipeline de red-teaming. Le résultat Dreadnode quantifie ce qui était previously une assumption.
C'est le complément offense-side à la coverage d'hier sur la sécurité agent (split proposal-execution, quatre patterns d'attaque, gap d'eval). Là où le piece d'hier disait « tes evals mesurent pas la robustness adversariale », celui d'aujourd'hui dit « les agents red-team automatisés hit 85% sur des LLMs open-weight production-grade — tes evals catchent definitely pas ça ». Le caveat humans-still-better matter : les agents automatisés à 85% sur des attacks single-turn et multi-turn bounded, mais le genuine long-horizon reasoning et les edge cases de social engineering humain restent plus durs. C'est là que les evals adversariaux devraient focus next. Pour les builders qui déploient Llama Scout ou des modèles open-weight similaires derrière des surfaces customer-facing : l'assumption « publier des weights aide pas les attaquants parce qu'ils pourraient probe via API anyway » est maintenant quantitatively false. Open weights plus agent red-teaming égale 85% de succès contre le current safety training. Les primitives défensives dans la coverage d'hier — split proposal-execution, gates non-bypassables, policy checks — c'est la seule mitigation qui matter une fois que tu accept que le modèle lui-même est jailbreakable à ce rate.
Lundi matin : si ton stack utilise Llama Scout (17B), Llama 3.1, Llama 3.3, ou n'importe quel modèle open-weight de classe similaire derrière une surface customer-facing, assume que les safety filters current sont insufficient. Actions concrètes. Premièrement, lis le paper Dreadnode (arxiv.org/pdf/2410.02828) et reproduis le setup d'agent contre ton modèle déployé spécifique plus la combinaison system-prompt. Roule-le au minimum trimestriellement. Utilise Kimi 2.5 ou un modèle strong comparable comme attaquant et juge. Deuxièmement, bâtis les gates décrits dans le piece sécurité d'hier — split proposal-execution, policy checks, invariant verification — c'est la seule layer de défense qui matter une fois que tu accept que le modèle lui-même est jailbreakable 85% du temps. Troisièmement, traite les refusal rates comme un metric safety first-class, pas juste l'accuracy sur des evals bénins. Si ton modèle refuse jamais rien d'adversarial, t'as pas de signal ; s'il refuse tout, t'as le problème denial-of-service de refusal-storm d'hier. La middle band c'est là que la production vit, et t'as besoin de la mesurer. Quatrièmement, ajoute Crescendo et Graph of Attacks with Pruning à ta suite d'eval adversariale par défaut. T'as pas besoin d'attendre qu'un paper te dise que ton modèle fail — les rates de succès 100% dans cette étude le disent.
