O Center for AI Standards and Innovation (CAISI) do Department of Commerce anunciou na terça que Google, Microsoft e xAI assinaram para dar acesso pre-release aos seus modelos frontier, para avaliação de segurança e capacidade. Eles entram junto da OpenAI e Anthropic, que renegociaram parcerias CAISI existentes para alinhar com o AI Action Plan da administração Trump. Cinco labs fechados agora alimentam um pipeline federal de evals com modelos SOTA ainda não released — a resposta soft-regulation que a UE tentou codificar em legislação, chegando aqui como pacto voluntário sob outra administração.

Os detalhes substantivos são mais finos do que o anúncio sugere. A CAISI diz ter completado mais de 40 avaliações, incluindo em modelos frontier não released, mas o que é avaliado, quem vê os resultados, e se alguma coisa de fato gate um deploy continua não divulgado. O escopo de eval é descrito em termos de capacidade e segurança — os eixos padrão CBRN, cyber, ação autônoma — mas detalhes de harness, protocolos de contaminação e modelos de acesso red-team não são públicos. O termo «renegociado» sobre as parcerias existentes da OpenAI e Anthropic é o ponto para vigiar: os termos mudaram sob a nova administração, e o que mudou não foi divulgado por nenhum dos labs. Para builders, significa que o pipeline de evals é real mas os critérios que ele enforce são essencialmente black-box.

Os labs open-weights — Mistral, Meta, DeepSeek, Qwen, Zyphra — estão fora desse loop por completo. Eles publicam pesos, então não há gate «pre-release» a negociar. Resultado: uma bifurcação regulatória que começa a pesar: o frontier fechado está dentro do pipeline governamental de evals, o open-weights está fora. A Mistral shipando Medium 3.5 nesta mesma semana (128B denso, 77,6% em SWE-Bench Verified, pesos no Hugging Face) é a demonstração ao vivo — um backbone capaz de codar deployed sem nenhuma review federal pre-release, hospedável em infra do builder. Para stacks agent apontados para clientes regulados, esse diferencial vai comprimir decisões de procurement: compradores gov-adjacent vão começar a perguntar se um modelo tem status de eval CAISI, e um «não» ou «open-weights, n/a» vai ler diferente de um «sim». Para builders comerciais, o diferencial corta para o outro lado — open-weights ganha a vantagem de evitar fricção regulatória que torna a matemática do self-hosting mais atraente.

O concreto de segunda-feira: se você shipa para governo, defesa, finanças ou saúde, pergunte ao vendor de modelo sobre o status CAISI — em breve um bullet de procurement. Se está pesando aberto vs fechado para comercial, o diferencial regulatório agora é uma linha de custo real: o frontier fechado carrega a fricção de evals pre-release (potencialmente ciclos de release mais longos se as evals encontrarem problemas), o open-weights carrega o risco inverso (sem seal federal, mas sem gate federal também). O caso do meio é a bagunça — Llama, Gemma e outros releases abertos de labs no pipeline CAISI não são eles mesmos pré-avaliados como releases, mesmo que o lab parent esteja no programa. Builders construindo sobre esses pesos herdam ambiguidade que ainda não foi resolvida no papel.