A Cloudflare lançou o Code Mode para MCP em 14 de abril, um retrabalho da forma como agentes de IA chamam APIs que reduz a pegada em tokens de expor a API completa da Cloudflare de mais de um milhão de tokens para cerca de mil. A afirmação merece ser levada a sério, porque o padrão MCP padrão (definir cada endpoint como uma ferramenta, passar essas definições para a janela de contexto do modelo) realmente desmorona em escala. Se a API da Cloudflare sozinha consumiria mais de um milhão de tokens (mais do que qualquer janela de contexto atual) só para descrever que ferramentas existem, toda API SaaS grande bate no mesmo muro.

O Code Mode substitui a abordagem de "milhares de ferramentas" por exatamente duas: search() e execute(). O search() permite que o modelo consulte um SDK tipado por métodos relevantes. O execute() roda o código escrito pelo modelo contra esse SDK dentro de um Worker dinâmico da Cloudflare em sandbox. Em vez de o modelo escolher uma ferramenta pré-definida por passo, ele escreve um script curto que encadeia operações, roda o script, e inspeciona o resultado. O efeito líquido é uma pegada de tokens fixa para toda a superfície de API, independentemente de o gateway estar na frente de um serviço ou cinquenta. O teste independente da WorkOS reporta uma redução de 81% de tokens em seu cenário; o blog da Cloudflare reivindica 99,9% sobre a API da Cloudflare especificamente. Os dois números podem ser verdadeiros. Depende contra o que você está comparando e de que fração de ferramentas é usada por sessão.

O padrão é maior do que a Cloudflare. Qualquer um que esteja construindo integrações MCP para APIs grandes está batendo no mesmo teto: quanto mais endpoints você expõe, mais contexto você queima antes de o agente ter feito qualquer coisa. Code Mode é, no fundo, "dê ao agente um REPL e um SDK", uma abordagem que o mundo Python reconhece desde que as ideias de notebook-como-interface-de-agente começaram a circular há dois anos. A Cloudflare enviou primeiro porque já tem um runtime em sandbox (Workers) para executar código não confiável com segurança. Todos os outros vão precisar de uma história de sandbox antes de conseguirem enviar o mesmo padrão. Espere Vercel, Fly, Render e as nuvens grandes lançarem capacidades semelhantes nos próximos seis meses, e espere um ano de debate sobre argumentos de segurança em torno do que o isolamento de sandbox realmente garante.

Se você constrói ou opera servidores MCP, há dois movimentos acionáveis. Primeiro, audite seu custo de contexto: quantos tokens sua lista de ferramentas consome antes de o agente ter feito qualquer coisa? Se a resposta é mais do que alguns milhares, você tem um problema de escalabilidade que um modelo maior não vai resolver sozinho. Segundo, pense se sua superfície de API pode ser representada como um SDK tipado em vez de uma lista plana de ferramentas. Para APIs REST com dezenas a milhares de endpoints, o padrão Code Mode provavelmente é a direção certa de longo prazo mesmo que você nunca encoste na Cloudflare especificamente. A pergunta mais difícil é o sandbox. Rodar código gerado pelo modelo é um problema de segurança que todo time eventualmente tem de resolver, e "confia no executor Python do provedor do modelo" não é uma resposta durável quando seus agentes estão tocando sistemas em produção. Code Mode move essa conversa de "preocupação futura" para "decisão de design atual".