Estudo revela que benchmark popular pode superestimar em até 7 vezes o desempenho real de IAs na programação

Avaliação de IA para programação pode estar superestimando resultados no mundo real, aponta novo estudo

Uma nova pesquisa publicada pela organização de pesquisa METR levanta um alerta importante para o setor de inteligência artificial. Segundo o estudo, um dos principais benchmarks usados para medir a capacidade de IA em programação, o SWE-bench Verified, pode estar superestimando significativamente o desempenho real dos agentes de IA em ambientes de desenvolvimento de software.

O SWE-bench Verified é amplamente utilizado para avaliar se modelos de IA conseguem resolver problemas reais em projetos de código aberto. A metodologia consiste em gerar uma solução de código e verificar automaticamente se as alterações passam pelos testes do projeto. Empresas de IA como Anthropic e OpenAI frequentemente utilizam os resultados desse benchmark para demonstrar avanços na capacidade de seus modelos.

No entanto, os resultados do novo estudo sugerem que passar nos testes automáticos não significa necessariamente que o código seja aceitável em um projeto real.

Revisão humana revelou diferenças significativas

Para investigar essa possível discrepância, a equipe da METR convidou quatro desenvolvedores experientes, responsáveis por projetos open source conhecidos como scikit-learn, Sphinx e pytest, para revisar manualmente 296 soluções de código geradas por IA.

Essas soluções foram produzidas por cinco modelos diferentes:

Claude 3.5 Sonnet
Claude 3.7 Sonnet
Claude 4 Opus
Claude 4.5 Sonnet
GPT-5

O resultado chamou atenção: aproximadamente metade das soluções que “passaram” no benchmark automático foi rejeitada pelos mantenedores dos projetos.

Em média, a taxa de aceitação pelos desenvolvedores foi 24 pontos percentuais menor do que a pontuação indicada pelo SWE-bench Verified. Ou seja, o benchmark pode estar criando uma percepção mais otimista do que a realidade.

Principais motivos para rejeição do código

Os desenvolvedores identificaram três categorias principais de problemas nas soluções geradas por IA:

Qualidade de código abaixo do padrão do projeto
O código não seguia convenções ou boas práticas adotadas pelo projeto.
Impacto negativo na arquitetura existente
Algumas mudanças quebravam a estrutura ou introduziam complexidade desnecessária.
Erros funcionais reais
Em vários casos, mesmo com os testes passando, o problema original não havia sido realmente resolvido.

Esse último ponto é especialmente relevante. Significa que testes automatizados nem sempre capturam todos os problemas reais, permitindo que soluções tecnicamente incorretas passem pela avaliação.

Comparação entre modelos de IA

O estudo também analisou diferenças entre os modelos avaliados.

Algumas tendências observadas:

Claude 3.7 Sonnet apresentou melhor desempenho no benchmark em relação ao Claude 3.5, mas também gerou mais erros funcionais identificados pelos revisores humanos.
Ao evoluir para Claude 4 Opus, os problemas passaram a se concentrar mais em qualidade de código.
Claude 4.5 Sonnet mostrou melhorias nesse aspecto.
Já o GPT-5, segundo o estudo, teve desempenho geral inferior aos modelos da Anthropic nesta avaliação específica.

O benchmark pode estar superestimando a capacidade da IA

Outro ponto interessante do estudo envolve a estimativa de tempo de trabalho humano equivalente.

Usando a pontuação do SWE-bench, os pesquisadores estimaram que o Claude 4.5 Sonnet seria capaz de resolver tarefas equivalentes a cerca de 50 minutos de trabalho humano para atingir uma taxa de sucesso de 50%.

Porém, considerando as avaliações reais dos mantenedores, esse valor cairia para aproximadamente 8 minutos.

Isso sugere que o benchmark pode estar superestimando a capacidade da IA em até sete vezes.

O estudo não significa que a IA tenha atingido um limite

Apesar das conclusões críticas, os pesquisadores deixam claro que isso não indica que agentes de IA para programação tenham chegado a um limite de evolução.

Existem vários fatores que podem melhorar o desempenho real dessas ferramentas, como:

estratégias de prompt mais avançadas
múltiplas interações e correções
feedback humano contínuo
ciclos iterativos de melhoria

Além disso, o ambiente do experimento é diferente do fluxo de trabalho real de desenvolvimento. No estudo, a IA tinha apenas uma tentativa de enviar uma solução, enquanto desenvolvedores humanos normalmente iteram várias vezes com feedback.

O desafio agora é criar benchmarks mais realistas

A principal conclusão da pesquisa é que avaliar agentes de programação apenas por benchmarks automatizados pode gerar uma visão distorcida da realidade.

À medida que modelos de IA evoluem rapidamente, cresce também a necessidade de novos métodos de avaliação que reflitam melhor o ambiente real de desenvolvimento de software.

Para o futuro da engenharia de software assistida por IA, a pergunta deixa de ser apenas “a IA passa nos testes?” e passa a ser:

“o código realmente funciona bem em um projeto real mantido por humanos?”.