Inteligência Artificial

SWE-bench, GPQA, BrowseComp: o Que os Benchmarks de IA Realmente Medem (e o Que Escondem)

Cada lançamento de modelo vem com uma tabela de benchmarks. Mas o que SWE-bench Pro, GPQA Diamond, CursorBench e BrowseComp realmente testam? E por que um modelo pode melhorar em coding e piorar em pesquisa na mesma versão?

SWE-bench, GPQA, BrowseComp: o Que os Benchmarks de IA Realmente Medem (e o Que Escondem)

No dia 16 de abril de 2026, a Anthropic lançou o Claude Opus 4.7 com uma tabela de benchmarks que conta duas histórias ao mesmo tempo: o modelo melhorou 10,9 pontos no SWE-bench Pro e piorou 4,4 pontos no BrowseComp.

Como o mesmo modelo pode avançar e regredir na mesma versão? A resposta está no que cada benchmark realmente mede — e no que nenhum deles mede direito. Se você leu a notícia do Opus 4.7 e ficou sem entender o que significam esses nomes, esse artigo é o glossário que faltava.

SWE-bench Verified — o padrão que quase morreu

Criado por pesquisadores de Princeton e lançado em 2024, o SWE-bench Verified contém 500 tarefas tiradas de issues reais do GitHub. O modelo recebe a descrição do bug e o código da época, e precisa produzir um patch que corrija o problema sem quebrar nada que já funcionava.

O score é a porcentagem de patches que passam nos dois tipos de teste: os que devem passar depois da correção e os que já passavam antes e devem continuar passando.

Ainda assim, a Anthropic e outros labs continuam reportando o número. O Claude Opus 4.7 atingiu 87,6% — mas esse número precisa ser lido com ceticismo.

SWE-bench Pro — a versão que tenta corrigir o problema

Lançado pela Scale AI em setembro de 2025, o SWE-bench Pro foi criado especificamente para resolver as falhas do antecessor. Tem 1.865 tarefas em 41 repositórios, inclui código em Python, Go, TypeScript e JavaScript, e cada tarefa exige no mínimo 10 linhas modificadas — na prática, a solução média mexe em 107 linhas distribuídas por 4 arquivos.

O diferencial anti-contaminação é a estrutura em três camadas:

— Parte do dataset usa código sob licença copyleft (GPL), o que desincentiva legalmente a inclusão em treinamento proprietário.

— Uma porção permanentemente privada usa código de startups early-stage que nunca foi público — inacessível para qualquer crawler de treinamento.

SWE-bench Verified 500 tarefas · GitHub público 1-2 linhas em média Só Python ⚠ Contaminação confirmada Opus 4.7: 87,6% SWE-bench Pro 1.865 tarefas · 41 repos 107 linhas em 4 arquivos (média) Python, Go, TypeScript, JS ✓ Dataset privado anti-contaminação Opus 4.7: 64,3%
SWE-bench Verified vs SWE-bench Pro — comparativo

CursorBench — o benchmark do mundo real

CursorBench é a proposta mais honesta: em vez de criar tarefas sintéticas, ele usa código que a própria equipe de engenharia da Cursor produziu durante o trabalho real no IDE.

O mecanismo é o Cursor Blame: rastreia o código que foi commitado e associa cada bloco ao prompt que o gerou. As tarefas resultantes têm em média 352 linhas em 8 arquivos, com descrições curtas e subespecificadas — exatamente como desenvolvedores realmente pedem coisas para modelos no dia a dia.

Quatro dimensões avaliadas: correção, qualidade do código, eficiência e comportamento de interação. Um grader agêntico reconhece múltiplas soluções válidas para o mesmo problema.

GPQA Diamond — o benchmark que morre de sucesso

GPQA Diamond é o subconjunto mais difícil do Graduate-Level Google-Proof Q&A Benchmark: 198 perguntas de múltipla escolha em biologia, física e química de nível PhD. A metodologia de construção é o ponto forte — cada pergunta é escrita por um especialista PhD, validada por outros especialistas, e só entra no Diamond se dois validadores especialistas acertam e não-especialistas com acesso ao Google erram.

O problema: o benchmark está quase morto por saturação. A trajetória conta a história:

0% 50% 94% GPT-4 39% Claude 3 55% DeepSeek-R1 72% o3 83% Gemini 3 94% Opus 4.7 94,2% zona saturada
Evolução do GPQA Diamond — de desafiador a saturado

Quando três modelos diferentes chegam a 94% em 198 perguntas, a diferença entre eles é estatisticamente ruído — não performance real. O GPQA Diamond deixou de discriminar quem é melhor no topo. Por isso surgiram sucessores como o Humanity's Last Exam (em que mesmo o melhor modelo faz apenas 41%) e o FrontierMath.

BrowseComp — onde o Opus 4.7 piorou

Criado pela OpenAI em abril de 2025, o BrowseComp testa a capacidade de agentes de encontrar informações adversariamente difíceis na web aberta. São 1.266 perguntas construídas pelo método de 'pergunta invertida': o redator parte de um fato verificável e cria uma pergunta que combina múltiplas características restritivas num espaço de busca enorme.

Exemplo da lógica: ao invés de perguntar 'quem é o CEO da empresa X', a pergunta seria 'qual empresa tecnológica fundada em 2019, com sede em Austin, que passou por uma aquisição em 2023, tem um CEO que estudou em determinada universidade?'. Difícil de achar, fácil de verificar quando você encontra.

GDPVal-AA — medindo valor econômico real

GDPVal é o benchmark conceitualmente mais ambicioso: em vez de provas acadêmicas, mede a capacidade dos modelos em produzir entregáveis reais de trabalho. São 1.320 tarefas em 44 ocupações dos 9 setores que mais contribuem para o PIB americano — memorandos jurídicos, modelos financeiros em Excel, blueprints de engenharia, planos de cuidado de enfermagem.

A avaliação é head-to-head cega: juízes humanos experientes comparam o entregável do modelo com o de um especialista real e classificam como win, tie ou loss. O GDPVal-AA é a reimplementação pelo Artificial Analysis usando ranking por ELO.

MCP-Atlas — agentes usando ferramentas reais

MCP-Atlas avalia uso de ferramentas via Model Context Protocol — o padrão aberto que virou referência em 2025. São 1.000 tarefas executadas contra 36 servidores MCP reais com 220 ferramentas (GitHub, Slack, Notion, Airtable, MongoDB etc.). O agente recebe um prompt sem saber quais servidores estão disponíveis e precisa descobrir quais ferramentas chamar entre 10-25 opções expostas, incluindo distratores.

O scoring usa crédito parcial: a resposta deve conter afirmações factuais específicas verificáveis. Os erros dominantes nos modelos são seleção errada de servidor e parametrização incorreta — precisamente as falhas de agentes em produção real.

Terminal-Bench 2.0 e OSWorld — o que modelos fazem num computador

O Terminal-Bench 2.0 mede execução em terminal Linux: 89 tarefas cuidadosamente curadas em software engineering, bioinformática, segurança e gaming, cada uma com ambiente Docker e verificação por testes automatizados. O modelo precisa resolver o problema completo de forma autônoma no terminal.

O OSWorld vai além: avalia agentes multimodais em sistemas operacionais reais. O modelo recebe screenshots e precisa produzir ações de mouse e teclado. A verificação é por estado final do sistema — sem LLM como juiz. O baseline humano é 72%. Em abril de 2026, o Opus 4.7 chegou a 78% — os modelos de fronteira já ultrapassaram humanos nesse benchmark.

Finance Agent v1.1 — onde o Opus 4.7 avançou

O Finance Agent Benchmark da Vals AI contém 537 perguntas criadas com QC de analistas de Goldman Sachs e Citadel. O agente tem acesso a ferramentas reais: EDGAR via SEC_API, busca na web, parser de HTML. As tarefas vão de extração de dados de 10-K até modelagem financeira de M&A.

337 das 537 perguntas são permanentemente privadas — nunca foram públicas e nunca serão. O Opus 4.7 atingiu 64,4% nesse benchmark, +4,7pp sobre o 4.6. A razão é estrutural: o Finance Agent premia execução metódica de um pipeline previsível, onde o maior instruction-following literal e a auto-verificação do 4.7 brilham — exatamente o oposto do que o BrowseComp exige.

Por que os números mentem (parcialmente)

Três problemas estruturais afetam todos os benchmarks de IA, e a indústria começou a falar abertamente sobre eles.

Contaminação de dados. Benchmarks públicos acabam nos corpora de treinamento. Pesquisas mostram que 144 exposições durante o treino já produzem overfitting detectável. A OpenAI detectou que modelos conseguiam reproduzir a solução correta do SWE-bench Verified apenas com o ID da tarefa — sem ver o código.

Lei de Goodhart. Quando a medida vira alvo, ela deixa de ser boa medida. Uma análise de 2 milhões de batalhas do Chatbot Arena revelou que a Meta testou 27 variantes privadas do Llama-4 antes de publicar a melhor, e que fine-tuning com dados da Arena produziu ganhos de 112% no ArenaHard sem melhorar nenhuma outra capacidade.

Gap entre benchmark e mundo real. A METR demonstrou que cerca de metade dos patches que passam nos testes automáticos do SWE-bench não seriam aceitos por mantenedores reais. E num RCT controlado com desenvolvedores open-source, ferramentas de IA deixaram os devs 19% mais lentos.

O que realmente importa na hora de escolher um modelo

Na prática, profissionais que usam IA em produção olham para variáveis que os benchmarks públicos raramente capturam:

Custo por token e latência. Um modelo 10% melhor em benchmark que custa 3× mais pode ser a escolha errada para o seu caso de uso.

Confiabilidade no seu domínio específico. Especialistas em finanças e direito relatam que o ranking por domínio é diferente do ranking geral — o Sonnet 4.5 supera o Opus em algumas tarefas jurídicas específicas.

Comportamento real com seus dados. A única forma de saber é testar. Times como Cursor, Perplexity e Windsurf fazem roteamento dinâmico entre modelos com A/B testing em telemetria de produção — não escolhem por leaderboard.

Cada benchmark mede uma dimensão diferente Coding SWE-bench Verified SWE-bench Pro CursorBench Terminal-Bench 2.0 Raciocínio GPQA Diamond Humanity's Last Exam MMLU Trabalho Real GDPVal-AA Finance Agent v1.1 Uso de Computador OSWorld OSWorld-Verified Uso de Ferramentas MCP-Atlas Pesquisa na Web BrowseComp
Mapa de benchmarks — o que cada um realmente mede

Benchmarks são mapas, não territórios. Um mapa que mostra apenas estradas não diz nada sobre o relevo. O que os benchmarks de 2026 estão aprendendo — a custo de muito embaraço público — é que nenhum número captura tudo, e que o gap entre 'passa no benchmark' e 'funciona no seu código' nunca vai a zero.

O melhor benchmark continua sendo o seu próprio caso de uso.