Google, Microsoft, xAI se suman a Anthropic y OpenAI en evals pre-release de CAISI

El Center for AI Standards and Innovation (CAISI) del Departamento de Commerce anunció el martes que Google, Microsoft y xAI firmaron para dar acceso pre-release a sus modelos frontier para evaluación de seguridad y capacidad. Se suman a OpenAI y Anthropic, que renegociaron sus partnerships CAISI existentes para alinearse con el AI Action Plan de la administración Trump. Cinco labs cerrados ahora alimentan un pipeline federal de evals con modelos SOTA no released aún — la respuesta soft-regulation que la UE intentó codificar en legislación, llegando acá como pacto voluntario bajo otra administración.

Los detalles substantivos son más finos de lo que sugiere el anuncio. CAISI dice haber completado más de 40 evaluaciones, incluyendo modelos frontier no released, pero qué se evalúa, quién ve los resultados, y si algo realmente gate un deploy sigue sin divulgarse. El scope de eval se describe en términos de capacidad y seguridad — los ejes estándar CBRN, cyber, acción autónoma — pero los detalles del harness, los protocolos de contaminación, y los modelos de acceso red-team no son públicos. El término «renegociado» sobre los partnerships existentes de OpenAI y Anthropic es el punto a vigilar: los términos cambiaron bajo la nueva administración, y lo que cambió no fue divulgado por ninguno de los labs. Para builders, eso significa que el pipeline de evals es real pero los criterios que enforce están esencialmente black-boxed.

Los labs open-weights — Mistral, Meta, DeepSeek, Qwen, Zyphra — están fuera de este loop por completo. Publican pesos, así que no hay gate «pre-release» que negociar. Resultado: una bifurcación regulatoria que empieza a importar: el frontier cerrado está dentro del pipeline gubernamental de evals, el open-weights está afuera. Mistral shipeando Medium 3.5 esta misma semana (128B denso, 77,6% en SWE-Bench Verified, pesos en Hugging Face) es la demostración en vivo — un backbone capaz de codear desplegado sin ninguna review federal pre-release, hospedable en infra del builder. Para stacks agent apuntados a clientes regulados, este diferencial va a comprimir las decisiones de procurement: compradores gov-adjacent van a empezar a preguntar si un modelo tiene status de eval CAISI, y un «no» o «open-weights, n/a» se va a leer distinto que un «sí». Para builders comerciales, el diferencial corta al otro lado — open-weights gana la ventaja de evitar fricción regulatoria que hace más atractiva la matemática del self-hosting.

Lo concreto del lunes por la mañana: si shippeas a gobierno, defensa, finanzas o salud, pregunta a tu vendor de modelo el status CAISI — pronto va a ser un bullet de procurement. Si estás pesando abierto vs cerrado para comercial, el diferencial regulatorio ahora es una línea de costo real: el frontier cerrado carga la fricción de evals pre-release (potencialmente ciclos de release más largos si las evals encuentran problemas), open-weights carga el riesgo inverso (sin seal federal, pero sin gate federal tampoco). El caso del medio es el lío — Llama, Gemma y otros releases abiertos de labs en el pipeline CAISI no están pre-evaluados como releases en sí mismos, aunque su lab padre esté en el programa. Builders construyendo sobre esos pesos heredan ambigüedad que todavía no se resolvió en papel.

Google, Microsoft, xAI se suman a Anthropic y OpenAI en evals pre-release de CAISI

Más noticias