Claude Opus 4.7 llega con 87,6% en SWE-bench Verified, visión de 2.576 píxeles, /ultrareview multi-agente, y un nivel de esfuerzo xhigh

Anthropic envió Claude Opus 4.7 el 16 de abril, la primera release generalmente disponible desde Opus 4.6 y el hermano de producción del Mythos Preview restringido que lideró los titulares de ciberseguridad a principios de este mes. Aterrizó simultáneamente en Claude Platform, Amazon Bedrock, Google Cloud Vertex AI, y Microsoft Foundry, lo cual es el lanzamiento multi-cloud más limpio que Anthropic ha hecho hasta la fecha. VentureBeat lo enmarcó como una recuperación estrecha del título "LLM más poderoso generalmente disponible".

Los deltas de benchmark son la parte que merece atención. SWE-bench Verified se movió a 87,6%, arriba de 80,8% en Opus 4.6. SWE-bench Pro, la variante más dura, aterriza en 64,3%. CursorBench golpeó 70%, arriba de 58%. GPQA Diamond alcanzó 94,2%. El conjunto de features importa más que los números, sin embargo. Un nuevo nivel de esfuerzo "xhigh" expone más compute por turno. Los presupuestos de tarea te dejan limitar cuánto trabajo gasta una tarea individual. /ultrareview es una función de revisión de código multi-agente, que continúa la convergencia de primitiva sub-agente que cubrimos cuando Gemini CLI envió sub-agentes la semana pasada. La entrada de visión culmina en 2.576 píxeles en el lado largo (aproximadamente 3,75 megapíxeles), haciendo de Opus 4.7 el primer modelo Claude con soporte de imágenes de alta resolución. El contexto de 1M tokens y el techo de salida de 128k se preservan desde 4.6. El precio se mantiene en $5 entrada y $25 salida por millón de tokens.

Dos cosas destacan. Uno, SWE-bench Verified en 87,6% es un salto de siete puntos sobre Opus 4.6 en un solo ciclo, lo cual es una oscilación más grande que la mayoría de las versiones recientes de Claude han producido. El delta de CursorBench (58 a 70) es incluso más grande en términos relativos. La apuesta de coding agéntico de Anthropic continúa siendo donde el producto recibe la mayor inversión, y la función de revisión multi-agente /ultrareview es la evidencia directa. Dos, el lanzamiento simultáneo a través de Bedrock, Vertex, y Microsoft Foundry señala que la postura de Anthropic "asociación profunda con AWS más disponible en todos los clouds mayores" no es la exclusividad de cloud que algunos leían en la expansión de $25 mil millones de Amazon. Claude sigue siendo genuinamente multi-cloud a nivel de producto, incluso si la concentración de gasto es unidireccional.

Si corres agentes de coding, la implicación práctica es directa. Opus 4.7 es un swap drop-in en cada superficie API mayor al mismo punto de precio que 4.6. La función /ultrareview es la primera a experimentar — revisión de código multi-agente construida dentro del modelo hace del patrón sub-agente un default en lugar de un paso de configuración. El upgrade de visión a 2.576 píxeles desbloquea flujos de debugging de captura de pantalla que antes estaban limitados por downscaling. Si estás en un entorno regulado que prefiere Bedrock o Vertex, la paridad al lanzamiento significa que puedes adoptar 4.7 con la misma postura cloud-native que ya usas. El modelo que produjo resultados de ciberseguridad de nivel Mythos en preview de investigación está ahora en producción, una muesca más abajo, generalmente disponible.

Claude Opus 4.7 llega con 87,6% en SWE-bench Verified, visión de 2.576 píxeles, /ultrareview multi-agente, y un nivel de esfuerzo xhigh

Más noticias