Anthropic annonce Claude Mythos Preview, un modèle qui est accidentellement devenu excellent en cybersécurité pendant son entraînement sur du code. La compagnie affirme qu'il performe « dans l'ensemble aussi bien qu'un professionnel humain pour identifier des bugs » et peut enchaîner plusieurs vulnérabilités en exploits sophistiqués. En test, il a trouvé un bug de crash vieux de 27 ans dans OpenBSD et des vulnérabilités d'escalade de privilèges dans Linux. Plutôt que de sortir publiquement, Anthropic lance Project Glasswing — s'associant avec des organisations qui maintiennent du code d'infrastructure critique.

Ceci représente le dilemme classique de l'IA à double usage qui se cristallise en temps réel. Des modèles qui deviennent dramatiquement meilleurs en code signifie qu'ils deviennent aussi dramatiquement meilleurs pour casser du code. Ce qui est notable ici, c'est pas juste le bond de capacité, mais la réponse d'Anthropic : accès contrôlé plutôt que sortie ouverte. « On a trouvé plus de bugs dans les dernières semaines que j'en ai trouvé dans le reste de ma vie combiné », dit un chercheur — c'est soit du progrès remarquable ou inquiétant selon qui a accès en premier.

La vidéo n'adresse pas la tension évidente dans l'approche d'Anthropic. Ils créent essentiellement un avantage sécuritaire temporaire pour des partenaires sélects tout en accélérant potentiellement une course aux armements sécuritaires IA. Combien de temps avant que des capacités similaires émergent d'autres labos ? Qu'est-ce qui arrive quand des acteurs étatiques développent des modèles équivalents ? La stratégie « défenseurs d'abord » assume une coordination qui existe rarement en pratique. Pour les développeurs, ceci signale que la recherche sécuritaire assistée par IA passe d'expérimentale à essentielle — mais les outils qui pourraient protéger votre code pourraient pas être disponibles pour vous bientôt.