Composer 2 chega forte: modelo da Cursor supera rivais em benchmarks e aposta em alto desempenho com baixo custo

Cursor lança Composer 2 e agita o mercado de IA para programação

No dia 19 de março, a Cursor anunciou oficialmente o lançamento do seu novo modelo de código, o Composer 2 — e a reação da comunidade de desenvolvedores foi imediata. O motivo? Os números divulgados mostram que o modelo já chega competindo diretamente com gigantes do setor.

Segundo a Cursor, o Composer 2 alcançou 61,7% no Terminal-Bench 2.0, superando o Claude Opus 4.6, que marcou 58,0% no mesmo ambiente de teste. Ainda assim, o líder geral continua sendo o GPT-5.4, com 75,1%.

📊 Principais resultados de benchmark

A Cursor divulgou três métricas principais para demonstrar a evolução do modelo:

Terminal-Bench 2.0 (tarefas de codificação via terminal com agentes)
- Composer 2: 61,7%
- Claude Opus 4.6: 58,0%
- GPT-5.4: 75,1%
CursorBench (cenários reais dentro do próprio Cursor IDE)
- Composer 2: 61,3%
- Composer 1.5: 44,2%
- Claude Opus 4.6: 58,2%
SWE-bench Multilingual (engenharia de software em múltiplas linguagens)
- Composer 2: 73,7%

Os números mostram um salto significativo em relação à geração anterior, especialmente em tarefas mais complexas e de longo prazo.

⚠️ Comparações exigem cautela

Apesar dos bons resultados, há um detalhe importante: os testes não foram realizados sob as mesmas condições.

A Anthropic já havia divulgado que o Claude Opus 4.6 atinge 65,4% no Terminal-Bench 2.0 quando configurado de forma otimizada. Já a Cursor utilizou um ambiente com agentes de terceiros (como Harbor) e rodou múltiplas execuções para obter a média.

Ou seja, os números não são diretamente comparáveis. A própria Cursor reconheceu isso, destacando que os resultados dependem de fatores como ambiente, configuração e ferramentas utilizadas.

💰 O grande diferencial: custo-benefício

Se há um ponto onde o Composer 2 realmente se destaca, é no preço.

Composer 2:
- $0,50 por milhão de tokens de entrada
- $2,50 por milhão de tokens de saída
Claude Opus 4.6:
- $5 / $25
GPT-5.4:
- $2,5 / $15

Na prática, o Composer 2 pode custar até 10 vezes menos que o Opus 4.6.

Segundo a Cursor, isso é resultado de uma arquitetura pensada desde o início para tarefas longas de programação, combinando:

Treinamento com reinforcement learning (RL)
Técnicas de “auto-sumarização”
Otimização para velocidade e eficiência

🧠 Foco em tarefas longas e uso real

O Composer 2 é a terceira geração de modelos da Cursor, após:

Composer 1 (outubro de 2025)
Composer 1.5 (fevereiro de 2026)

A principal evolução agora está em tarefas chamadas de “long-horizon” — ou seja, projetos que exigem múltiplos passos, contexto contínuo e raciocínio prolongado.

Além disso, uma versão mais leve e rápida do modelo já foi definida como padrão dentro do Cursor IDE.

🔄 O que isso muda no mercado?

O lançamento do Composer 2 reforça uma mudança importante na indústria de IA:

Empresas como OpenAI e Anthropic continuam focadas em modelos generalistas de ponta
Já ferramentas como Cursor apostam em especialização + preço competitivo

Essa estratégia abre espaço para um novo padrão de uso:

👉 Roteamento entre múltiplos modelos

Tarefas complexas → GPT ou Opus
Codificação do dia a dia → Composer 2

Esse equilíbrio pode reduzir custos sem perder performance.

🧪 E na prática?

Apesar dos benchmarks positivos, muitos desenvolvedores ainda preferem esperar testes em projetos reais antes de tirar conclusões definitivas — o que é totalmente razoável.

A Cursor já liberou o Composer 2 para teste gratuito dentro do IDE para usuários assinantes, o que deve acelerar a validação no mundo real.

🚀 Conclusão

O Composer 2 não é (ainda) o modelo mais poderoso do mercado — mas pode ser um dos mais estratégicos.

Ele mostra que:

Não é preciso liderar todos os benchmarks para ganhar espaço
Otimização para casos reais + preço baixo pode ser decisivo

Se essa tendência continuar, o futuro da IA para desenvolvimento pode não ser dominado por um único modelo, mas sim por um ecossistema inteligente de ferramentas especializadas.