Notícias Tech

Claude Opus 4.7 Chegou: Melhor Modelo de Coding do Mercado, Visão 3× Maior e Mesmo Preço

A Anthropic lançou o Claude Opus 4.7 em 16 de abril de 2026. SWE-bench Pro subiu de 53,4% para 64,3%, visão triplicou para 3,75MP, e chegou um novo nível de esforço xhigh — tudo pelo mesmo preço do Opus 4.6.

Claude Opus 4.7 Chegou: Melhor Modelo de Coding do Mercado, Visão 3× Maior e Mesmo Preço

16 de abril de 2026. A Anthropic acabou de lançar o Claude Opus 4.7 — disponível agora no claude.ai, na API, no Amazon Bedrock, no Google Cloud Vertex AI e no Microsoft Foundry.

Não é uma atualização incremental. O SWE-bench Pro subiu 10,9 pontos percentuais. O CursorBench subiu 12 pontos. A resolução de visão triplicou. E — detalhe que empresas ficam felizes em ouvir — o preço não mudou.

SWE-bench Pro
64,3%
era 53,4% no Opus 4.6 (+10,9pp)
CursorBench
70%
era 58% (+12pp) — melhor coding do mercado
Visão
3,75MP
era 1,15MP — 3× mais resolução

O que mudou de verdade

O Opus 4.7 foi construído em torno de três problemas reais que usuários do Opus 4.6 reportavam: o modelo às vezes abandonava tarefas longas no meio, às vezes entregava código que parecia correto mas falhou na revisão, e às vezes interpretava instruções de forma mais livre do que o esperado.

As três apostas centrais do Opus 4.7 são diretamente contra esses problemas: persistência em tarefas longas, auto-verificação antes de reportar e seguimento literal de instruções.

Benchmarks: onde o Opus 4.7 ganhou e onde cedeu

Opus 4.6 vs Opus 4.7 — benchmarks principais ■ Opus 4.6 ■ Opus 4.7 SWE-bench Verified 87,6% (+6,8pp) SWE-bench Pro 64,3% (era 53,4% — +10,9pp) CursorBench 70% (era 58% — +12pp) GPQA Diamond 94,2% (+2,9pp) Finance Agent v1.1 64,4% (era 60,7% — melhor do mercado) BrowseComp 79,3% (era 83,7% — regressão) Barras laranjas = Opus 4.7 · Barras com borda vermelha = regressão vs 4.6
Comparativo Opus 4.6 vs Opus 4.7 nos principais benchmarks

Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro

Claude Opus 4.7 lidera

SWE-bench Pro: 64,3% vs 57,7% (GPT) e 54,2% (Gemini) SWE-bench Verified: 87,6% CursorBench: 70% — melhor coding em IDE do mercado MCP-Atlas (tool use): 77,3% vs 68,1% (GPT) Finance Agent: 64,4% vs 59,7% (Gemini) GDPVal-AA knowledge work: Elo 1.753 vs 1.674 (GPT)

Onde perde ou empata

BrowseComp: 79,3% vs 89,3% (GPT) e 85,9% (Gemini) GPQA Diamond: 94,2% — praticamente empatados (GPT: 94,4%, Gemini: 94,3%) Terminal-Bench 2.0: 69,4% vs 75,1% (GPT) Humanity's Last Exam: 54,7% vs 58,7% (GPT) CyberGym: intencional — capabilities cyber foram reduzidas durante o treinamento

Visão 3× melhor — o que isso muda na prática

O Opus 4.6 processava imagens em até 1.568px no lado longo (1,15 megapixels). O Opus 4.7 vai até 2.576px (3,75 megapixels) — mais de 3× mais pixels.

Na prática: diagramas técnicos densos, capturas de tela de IDEs, documentos PDF de alta resolução, mockups de design e gráficos financeiros complexos chegam com fidelidade real — não interpolados. O benchmark CharXiv de raciocínio visual com ferramentas saltou de 84,7% para 91,0%.

O novo nível xhigh — controle fino entre qualidade e custo

O Opus 4.6 tinha quatro níveis de esforço: low, medium, high e max. O Opus 4.7 insere um novo nível entre high e max:

low econômico medium balanceado high padrão Claude Code xhigh ✦ novo novo padrão Claude Code max máximo — caro
Escala de níveis de esforço no Opus 4.7

O xhigh é agora o padrão do Claude Code para todos os planos. A lógica é simples: se uma tarefa exige três tentativas no high pra acertar, uma tentativa no xhigh costuma ser mais barata no total — menos retentativas, menos tokens gastos.

Task budgets, /ultrareview e memória cross-session

Três features novas que chegam junto com o modelo:

Task budgets (beta pública): defina um teto de tokens para agentes autônomos. O modelo vê o contador decrescendo e prioriza o trabalho, terminando de forma limpa ao invés de cortar abruptamente. Ativa via header task-budgets-2026-03-13 + parâmetro output_config.task_budget.

/ultrareview no Claude Code: novo comando que roda uma sessão de revisão dedicada, lê todo o diff e sinaliza o que um revisor humano cuidadoso detectaria. 3 usos gratuitos nos planos Pro e Max no lançamento.

Memória cross-session: o Opus 4.7 é melhor em usar memória baseada em sistema de arquivos. Guarda notas importantes entre sessões longas de trabalho, reduzindo o contexto que você precisa colar no início de cada nova sessão.

Atenção na migração do 4.6

A Anthropic chamou de "direct upgrade" mas há mudanças que afetam token usage e comportamento:

O elefante na sala: o Mythos Preview

A Anthropic foi transparente: o Opus 4.7 não iguala o Claude Mythos Preview, seu modelo mais poderoso — que não está disponível publicamente por preocupações de segurança.

O Mythos Preview foi lançado semana passada para um grupo seleto de empresas de tecnologia e cibersegurança como parte do Project Glasswing. O Opus 4.7 é o primeiro modelo onde a Anthropic testou salvaguardas contra uso em ataques cibernéticos — o que aprendem aqui vai guiar como eventualmente liberam modelos de nível Mythos em escala.

Preço, disponibilidade e model ID

Preço idêntico ao Opus 4.6: $5 por milhão de tokens de entrada e $25 por milhão de tokens de saída. Prompt caching reduz em até 90%. Batch processing reduz em 50%.

Model ID na API: claude-opus-4-7. Disponível em: claude.ai (Pro, Max, Team, Enterprise), API Anthropic, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry.

Para a maioria dos desenvolvedores que usam Claude Code no dia a dia, o Opus 4.7 é uma atualização direta sem decisão a tomar. Mesmo preço, melhor modelo.

Para times com agentes em produção, a migração pede atenção: medir o impacto do novo tokenizador, revisar prompts que dependiam de interpretação livre e configurar task budgets antes de ligar o auto mode.