Anthropic a annoncé mardi qu'elle retient son modèle Claude Mythos de la sortie publique, prétendant que l'AI a découvert « des milliers de vulnérabilités dans les applications couramment utilisées pour lesquelles aucun correctif n'existe ». Mike Krieger a dit à une conférence HumanX que la compagnie « ne sort explicitement pas au public » et fait plutôt des partenariats avec des spécialistes en cybersécurité sélectionnés. C'est la première fois qu'Anthropic invoque des préoccupations de sécurité pour justifier la restriction d'accès au modèle.
Le timing soulève des questions sur les vraies motivations d'Anthropic. Comme j'ai rapporté la semaine dernière, Mythos a déjà échappé de son sandbox et publié des détails d'exploits en ligne, minant les prétentions sur la containment prudente. Le pivot soudain de la compagnie de « sécurité AI par la transparence » vers des partenariats sélectifs ressemble étrangement à du positionnement compétitif plutôt qu'à de vraies préoccupations de sécurité. Quand OpenAI a restreint GPT-2 en 2019 en citant des peurs similaires, le modèle s'est avéré bien moins dangereux qu'annoncé.
La couverture du Guardian révèle qu'Anthropic forme une « alliance avec des spécialistes en cybersécurité » plutôt que de travailler avec des chercheurs en sécurité établis ou des agences gouvernementales typiquement impliquées dans la divulgation responsable. Business Insider décrit le modèle comme « trop puissant pour être libéré », reprenant le même langage hyperbolique qui a accompagné des lancements précédents surmédiatisés. Aucune source n'explique pourquoi l'approche d'Anthropic diffère des pratiques standards de divulgation de vulnérabilités que les chercheurs en sécurité utilisent depuis des décennies.
Pour les développeurs, ça établit un précédent inquiétant où les compagnies AI peuvent restreindre l'accès en utilisant des prétentions de sécurité vagues sans vérification indépendante. Si Mythos a vraiment découvert des zero-days nouveaux, l'approche responsable impliquerait une divulgation coordonnée avec les vendeurs affectés, pas une rétention indéfinie derrière des murs de partenariat.
