Anthropic lanza Claude Security en beta: Opus 4.7 escanea vulnerabilidades pero sin evals públicas

Anthropic ha puesto Claude Security en beta pública para clientes Enterprise — antes llamado Claude Code Security, ahora generalizado. El producto corre en Opus 4.7 (el mismo modelo detrás de Claude Code) y hace análisis estático agéntico sobre codebases de clientes: traza flujos de datos, examina cómo los componentes interactúan a través de archivos y módulos, lee el source directamente, y genera instrucciones de parche para revisión humana. Vive en la sidebar de Claude.ai en claude.ai/security, activable vía consola de admin; integraciones webhook con Slack y Jira disponibles, más export CSV/Markdown para pipelines de auditoría. Se espera que sigan los planes Team y Max.

La elección arquitectónica que importa es *análisis dirigido por modelo* versus análisis dirigido por patrones. Snyk, Semgrep, GitHub Advanced Security todos funcionan principalmente manteniendo bibliotecas de reglas curadas — patrones CWE, usos de API conocidos como problemáticos, dependencias matcheadas a CVE — y matcheando el código contra ellas. Son rápidos, determinísticos, y bien adaptados a vulnerabilidades que se presentan como formas de código reconocibles. El enfoque de Claude Security es leer el código con un modelo de razonamiento frontera y razonar sobre él, lo que tiene el tradeoff opuesto: probablemente mejor en bugs lógicos, defectos de lógica de negocio, y problemas de flujo de datos multi-archivo que no caben en una regla estática; probablemente peor en completitud de cobertura para patrones conocidos. Eso es un cambio arquitectónico real, no un wrapper sobre un scanner existente.

Aquí está la pieza que carga el peso y falta: no hay datos de eval públicos. No se divulga lista de lenguajes soportados. Sin tasa de falsos positivos. Sin precisión/recall en un benchmark estándar. Sin corrida de comparación contra Snyk o Semgrep en el mismo codebase. Sin precio. El anuncio se lee como "construimos esto; confíen en nosotros, evalúenlo en su código" — lo cual está bien para una beta pública, pero significa que los devs evaluando esto contra su tooling existente tienen que hacer su propio trabajo de medición. La señal ecosistémica honesta es que productos verticales de labs frontera están viniendo en línea (este; Codex de OpenAI; Big Sleep de Google; varios plays enterprise Cursor/Anthropic/OpenAI). El lab-como-vendor-de-producto compitiendo directamente con la capa aplicativa que antes solo alimentaba es un movimiento ecosistémico real que vale la pena rastrear, sin importar qué producto específico gane.

Si estás en Claude Enterprise, actívalo, córrelo contra un codebase que conoces bien, y mira qué encuentra y qué se le escapa contra tu stack de scanner existente. La disciplina de eval es sobre ti — los claims de "scanner IA de vulnerabilidades" llevan suficiente tiempo para que seas escéptico hasta que hayas medido. Presta atención al solapamiento con resultados Snyk/Semgrep: donde el modelo encuentra algo que los patrones se pierden, eso es señal; donde los patrones atrapan algo que el modelo se pierde, esa es la limitación del análisis dirigido por modelo en esta generación. La ausencia notable de integración GitHub PR o CLI vale la pena marcar — la mayoría del tooling de seguridad en producción vive en revisión de PR, y este actualmente vive en claude.ai. Es una elección de producto interesante, probablemente temporal.

Anthropic lanza Claude Security en beta: Opus 4.7 escanea vulnerabilidades pero sin evals públicas

Más noticias