Google, Microsoft, xAI rejoignent Anthropic et OpenAI dans les évals pre-release CAISI

Le Center for AI Standards and Innovation (CAISI) du Department of Commerce a annoncé mardi que Google, Microsoft et xAI ont signé pour donner accès pre-release à leurs modèles frontier, à fin d'évaluation de sécurité et de capacité. Ils rejoignent OpenAI et Anthropic, qui ont renégocié leurs partenariats CAISI existants pour s'aligner sur l'AI Action Plan de l'administration Trump. Cinq labs fermés alimentent désormais un pipeline fédéral d'évals avec des modèles SOTA non encore released — la réponse soft-regulation que l'UE a tenté d'encoder en législation, qui arrive ici comme pacte volontaire sous une autre administration.

Les détails substantiels sont plus minces que l'annonce ne le suggère. CAISI dit avoir complété plus de 40 évaluations, dont sur des modèles frontier non released, mais ce qui est évalué, qui voit les résultats, et si quoi que ce soit gate effectivement un déploiement reste non divulgué. Le scope d'éval est décrit en termes de capacité et sécurité — les axes standards CBRN, cyber, action autonome — mais les détails de harness, les protocoles de contamination, et les modèles d'accès red-team ne sont pas publics. Le terme « renégocié » sur les partenariats existants d'OpenAI et Anthropic est le point à surveiller : les termes ont changé sous la nouvelle administration, et ce qui a changé n'a pas été divulgué par l'un ou l'autre des labs. Pour les builders, ça veut dire que le pipeline d'évals est réel mais les critères qu'il enforce sont essentiellement black-boxés.

Les labs open-weights — Mistral, Meta, DeepSeek, Qwen, Zyphra — sont hors de cette boucle entièrement. Ils publient les poids, donc il n'y a pas de gate « pre-release » à négocier. Résultat : une bifurcation réglementaire qui commence à compter : le frontier fermé est dans le pipeline d'évals gouvernemental, l'open-weights est dehors. Mistral qui ship Medium 3.5 cette même semaine (128B dense, 77,6 % SWE-Bench Verified, poids sur Hugging Face) en est la démonstration live — un backbone capable de coder déployé sans aucune review fédérale pre-release, hébergeable sur l'infra du builder. Pour les stacks agents pointés vers des clients régulés, ce différentiel va comprimer les choix de procurement : les acheteurs gov-adjacent vont commencer à demander si un modèle a un status d'éval CAISI, et un « non » ou « open-weights, n/a » se lira différemment d'un « oui ». Pour les builders commerciaux, le différentiel coupe dans l'autre sens — l'open-weights gagne l'avantage d'évitement de friction réglementaire qui rend les maths du self-hosting plus attractives.

Concret du lundi matin : si tu shippes au gouvernement, à la défense, à la finance ou à la santé, demande à ton vendor de modèle son status CAISI — bientôt un bullet de procurement. Si tu pèses ouvert vs fermé pour le commercial, le différentiel réglementaire est maintenant une vraie ligne de coût : le frontier fermé porte la friction des évals pre-release (potentiellement des cycles de release plus longs si les évals trouvent des problèmes), l'open-weights porte le risque inverse (pas de seal fédéral, mais pas de gate fédéral non plus). Le cas du milieu est le bordel — Llama, Gemma, et autres releases ouvertes de labs dans le pipeline CAISI ne sont pas eux-mêmes pré-évalués comme releases, même si leur lab parent est dans le programme. Les builders qui construisent sur ces poids héritent d'une ambiguïté qui n'a pas encore été résolue sur papier.

Google, Microsoft, xAI rejoignent Anthropic et OpenAI dans les évals pre-release CAISI

Plus de nouvelles