Noticias Tech

Llegó Claude Opus 4.7: mejor modelo de coding, visión 3× mayor y mismo precio

Anthropic lanzó Claude Opus 4.7 el 16 de abril de 2026. SWE-bench Pro subió a 64,3%, visión triplicó a 3,75MP y llegó el modo xhigh al mismo precio.

Llegó Claude Opus 4.7: mejor modelo de coding, visión 3× mayor y mismo precio

16 de abril de 2026. Anthropic acaba de lanzar Claude Opus 4.7 — disponible ahora en claude.ai, en la API, en Amazon Bedrock, en Google Cloud Vertex AI y en Microsoft Foundry.

No es una actualización incremental. SWE-bench Pro subió 10,9 puntos porcentuales. CursorBench subió 12 puntos. La resolución de visión se triplicó. Y —detalle que a las empresas les alegra escuchar— el precio no cambió.

SWE-bench Pro
64,3%
era 53,4% no Opus 4.6 (+10,9pp)
CursorBench
70%
era 58% (+12pp) — melhor coding do mercado
Visão
3,75MP
era 1,15MP — 3× mais resolução

Lo que cambió de verdad

Opus 4.7 fue construido en torno a tres problemas reales que los usuarios de Opus 4.6 reportaban: el modelo a veces abandonaba tareas largas a la mitad, a veces entregaba código que parecía correcto pero fallaba en la revisión, y a veces interpretaba instrucciones de forma más libre de lo esperado.

Las tres apuestas centrales de Opus 4.7 son directamente contra estos problemas: persistencia en tareas largas, autoverificación antes de reportar y seguimiento literal de instrucciones.

Benchmarks: dónde ganó Opus 4.7 y dónde cedió

Opus 4.6 vs Opus 4.7 — benchmarks principais ■ Opus 4.6 ■ Opus 4.7 SWE-bench Verified 87,6% (+6,8pp) SWE-bench Pro 64,3% (era 53,4% — +10,9pp) CursorBench 70% (era 58% — +12pp) GPQA Diamond 94,2% (+2,9pp) Finance Agent v1.1 64,4% (era 60,7% — melhor do mercado) BrowseComp 79,3% (era 83,7% — regressão) Barras laranjas = Opus 4.7 · Barras com borda vermelha = regressão vs 4.6
Comparativo Opus 4.6 vs Opus 4.7 en los principales benchmarks

Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro

Claude Opus 4.7 lidera

SWE-bench Pro: 64,3% vs 57,7% (GPT) y 54,2% (Gemini) SWE-bench Verified: 87,6% CursorBench: 70% — mejor coding en IDE del mercado MCP-Atlas (tool use): 77,3% vs 68,1% (GPT) Finance Agent: 64,4% vs 59,7% (Gemini) GDPVal-AA knowledge work: Elo 1.753 vs 1.674 (GPT)

Donde pierde o empata

BrowseComp: 79,3% vs 89,3% (GPT) y 85,9% (Gemini) GPQA Diamond: 94,2% — prácticamente empatados (GPT: 94,4%, Gemini: 94,3%) Terminal-Bench 2.0: 69,4% vs 75,1% (GPT) Humanity's Last Exam: 54,7% vs 58,7% (GPT) CyberGym: intencional — las capabilities cyber fueron reducidas durante el entrenamiento

Visión 3× mejor — lo que esto cambia en la práctica

Opus 4.6 procesaba imágenes de hasta 1.568px en el lado largo (1,15 megapíxeles). Opus 4.7 llega hasta 2.576px (3,75 megapíxeles) — más de 3× más píxeles.

En la práctica: diagramas técnicos densos, capturas de pantalla de IDEs, documentos PDF de alta resolución, mockups de diseño y gráficos financieros complejos llegan con fidelidad real — no interpolados. El benchmark CharXiv de razonamiento visual con herramientas saltó de 84,7% a 91,0%.

El nuevo nivel xhigh — control fino entre calidad y costo

Opus 4.6 tenía cuatro niveles de esfuerzo: low, medium, high y max. Opus 4.7 inserta un nuevo nivel entre high y max:

low econômico medium balanceado high padrão Claude Code xhigh ✦ novo novo padrão Claude Code max máximo — caro
Escala de niveles de esfuerzo en Opus 4.7

xhigh es ahora el estándar de Claude Code para todos los planes. La lógica es simple: si una tarea exige tres intentos en high para acertar, un intento en xhigh suele ser más barato en total — menos reintentos, menos tokens gastados.

Task budgets, /ultrareview y memoria cross-session

Tres funciones nuevas que llegan junto con el modelo:

Task budgets (beta pública): define un techo de tokens para agentes autónomos. El modelo ve el contador decreciendo y prioriza el trabajo, terminando de forma limpia en lugar de cortar abruptamente. Se activa vía header task-budgets-2026-03-13 + parámetro output_config.task_budget.

/ultrareview en Claude Code: nuevo comando que ejecuta una sesión de revisión dedicada, lee todo el diff y señala lo que un revisor humano cuidadoso detectaría. 3 usos gratuitos en los planes Pro y Max en el lanzamiento.

Memoria cross-session: Opus 4.7 es mejor usando memoria basada en sistema de archivos. Guarda notas importantes entre sesiones largas de trabajo, reduciendo el contexto que necesitas pegar al inicio de cada nueva sesión.

Atención en la migración del 4.6

Anthropic lo llamó "direct upgrade" pero hay cambios que afectan el token usage y el comportamiento:

El elefante en la habitación: Mythos Preview

Anthropic fue transparente: Opus 4.7 no iguala a Claude Mythos Preview, su modelo más poderoso — que no está disponible públicamente por preocupaciones de seguridad.

Mythos Preview fue lanzado la semana pasada para un grupo selecto de empresas de tecnología y ciberseguridad como parte de Project Glasswing. Opus 4.7 es el primer modelo donde Anthropic probó salvaguardas contra el uso en ataques cibernéticos — lo que aprenden aquí guiará cómo eventualmente liberan modelos de nivel Mythos a escala.

Precio, disponibilidad y model ID

Precio idéntico a Opus 4.6: $5 por millón de tokens de entrada y $25 por millón de tokens de salida. Prompt caching reduce hasta un 90%. Batch processing reduce un 50%.

Model ID en la API: claude-opus-4-7. Disponible en: claude.ai (Pro, Max, Team, Enterprise), API Anthropic, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry.

Para la mayoría de los desarrolladores que usan Claude Code en el día a día, Opus 4.7 es una actualización directa sin decisión que tomar. Mismo precio, mejor modelo.

Para equipos con agentes en producción, la migración pide atención: medir el impacto del nuevo tokenizador, revisar prompts que dependían de interpretación libre y configurar task budgets antes de activar el auto mode.