Cloudflare lanzó Code Mode para MCP el 14 de abril, una reelaboración de cómo los agentes de IA llaman APIs que reduce la huella en tokens de exponer la API completa de Cloudflare de más de un millón de tokens a aproximadamente mil. La afirmación merece tomarse en serio, porque el patrón MCP por defecto (definir cada endpoint como una herramienta, pasar esas definiciones a la ventana de contexto del modelo) se desarma realmente a escala. Si la API de Cloudflare por sí sola consumiría más de un millón de tokens (más que cualquier ventana de contexto actual) solo describiendo qué herramientas existen, cada API SaaS grande choca contra el mismo muro.

Code Mode reemplaza el enfoque de "miles de herramientas" con exactamente dos: search() y execute(). search() deja que el modelo consulte un SDK tipado para encontrar métodos relevantes. execute() corre el código escrito por el modelo contra ese SDK adentro de un Worker dinámico de Cloudflare en sandbox. En vez de que el modelo elija una herramienta predefinida por paso, escribe un script corto que encadena operaciones, lo corre, e inspecciona el resultado. El efecto neto es una huella de tokens fija para toda la superficie de API, sin importar si el gateway está delante de un servicio o de cincuenta. El testing independiente de WorkOS reporta una reducción del 81% en su escenario; el blog de Cloudflare reclama 99,9% sobre la API de Cloudflare específicamente. Los dos números pueden ser ciertos. Depende contra qué estás comparando y qué fracción de herramientas se usa por sesión.

El patrón es más grande que Cloudflare. Cualquiera que construya integraciones MCP para APIs grandes está chocando el mismo techo: cuantos más endpoints expongas, más contexto quemás antes de que el agente haya hecho algo. Code Mode es, en realidad, "dale al agente un REPL y un SDK", un enfoque que la comunidad Python viene reconociendo desde que empezaron a circular las ideas de notebook-como-interfaz-de-agente hace dos años. Cloudflare lo envió primero porque ya tiene un runtime en sandbox (Workers) para ejecutar código no confiable de forma segura. Todos los demás van a necesitar una historia de sandbox antes de poder enviar el mismo patrón. Esperá que Vercel, Fly, Render y las nubes grandes lancen capacidades parecidas en los próximos seis meses, y esperá un año de debate de argumentos de seguridad sobre qué garantiza realmente el aislamiento del sandbox.

Si construís o operás servidores MCP, hay dos movimientos accionables. Primero, auditá tu costo de contexto: cuántos tokens consume tu lista de herramientas antes de que el agente haya hecho algo. Si la respuesta es más que unos pocos miles, tenés un problema de escalabilidad que un modelo más grande no va a arreglar solo. Segundo, pensá si tu superficie de API se puede representar como un SDK tipado en vez de una lista plana de herramientas. Para APIs REST con decenas a miles de endpoints, el patrón Code Mode probablemente sea la dirección correcta a largo plazo incluso si nunca tocás Cloudflare específicamente. La pregunta más difícil es el sandbox. Correr código generado por el modelo es un problema de seguridad que todo equipo eventualmente tiene que resolver, y "confiá en el ejecutor de Python del proveedor del modelo" no es una respuesta duradera cuando tus agentes tocan sistemas en producción. Code Mode mueve esa conversación de "preocupación futura" a "decisión de diseño actual".