Composer 2 chega forte: modelo da Cursor supera rivais em benchmarks e aposta em alto desempenho com baixo custo

Cursor lança Composer 2 e agita o mercado de IA para programação

Composer 2 chega forte: modelo da Cursor supera rivais em benchmarks e aposta em alto desempenho com baixo custo

No dia 19 de março, a Cursor anunciou oficialmente o lançamento do seu novo modelo de código, o Composer 2 — e a reação da comunidade de desenvolvedores foi imediata. O motivo? Os números divulgados mostram que o modelo já chega competindo diretamente com gigantes do setor.

Segundo a Cursor, o Composer 2 alcançou 61,7% no Terminal-Bench 2.0, superando o Claude Opus 4.6, que marcou 58,0% no mesmo ambiente de teste. Ainda assim, o líder geral continua sendo o GPT-5.4, com 75,1%.


📊 Principais resultados de benchmark

A Cursor divulgou três métricas principais para demonstrar a evolução do modelo:

  • Terminal-Bench 2.0 (tarefas de codificação via terminal com agentes)

    • Composer 2: 61,7%
    • Claude Opus 4.6: 58,0%
    • GPT-5.4: 75,1%
  • CursorBench (cenários reais dentro do próprio Cursor IDE)

    • Composer 2: 61,3%
    • Composer 1.5: 44,2%
    • Claude Opus 4.6: 58,2%
  • SWE-bench Multilingual (engenharia de software em múltiplas linguagens)

    • Composer 2: 73,7%

Os números mostram um salto significativo em relação à geração anterior, especialmente em tarefas mais complexas e de longo prazo.


⚠️ Comparações exigem cautela

Apesar dos bons resultados, há um detalhe importante: os testes não foram realizados sob as mesmas condições.

A Anthropic já havia divulgado que o Claude Opus 4.6 atinge 65,4% no Terminal-Bench 2.0 quando configurado de forma otimizada. Já a Cursor utilizou um ambiente com agentes de terceiros (como Harbor) e rodou múltiplas execuções para obter a média.

Ou seja, os números não são diretamente comparáveis. A própria Cursor reconheceu isso, destacando que os resultados dependem de fatores como ambiente, configuração e ferramentas utilizadas.


💰 O grande diferencial: custo-benefício

Se há um ponto onde o Composer 2 realmente se destaca, é no preço.

  • Composer 2:

    • $0,50 por milhão de tokens de entrada
    • $2,50 por milhão de tokens de saída
  • Claude Opus 4.6:

    • $5 / $25
  • GPT-5.4:

    • $2,5 / $15

Na prática, o Composer 2 pode custar até 10 vezes menos que o Opus 4.6.

Segundo a Cursor, isso é resultado de uma arquitetura pensada desde o início para tarefas longas de programação, combinando:

  • Treinamento com reinforcement learning (RL)
  • Técnicas de “auto-sumarização”
  • Otimização para velocidade e eficiência

🧠 Foco em tarefas longas e uso real

O Composer 2 é a terceira geração de modelos da Cursor, após:

  • Composer 1 (outubro de 2025)
  • Composer 1.5 (fevereiro de 2026)

A principal evolução agora está em tarefas chamadas de “long-horizon” — ou seja, projetos que exigem múltiplos passos, contexto contínuo e raciocínio prolongado.

Além disso, uma versão mais leve e rápida do modelo já foi definida como padrão dentro do Cursor IDE.


🔄 O que isso muda no mercado?

O lançamento do Composer 2 reforça uma mudança importante na indústria de IA:

  • Empresas como OpenAI e Anthropic continuam focadas em modelos generalistas de ponta
  • Já ferramentas como Cursor apostam em especialização + preço competitivo

Essa estratégia abre espaço para um novo padrão de uso:

👉 Roteamento entre múltiplos modelos

  • Tarefas complexas → GPT ou Opus
  • Codificação do dia a dia → Composer 2

Esse equilíbrio pode reduzir custos sem perder performance.


🧪 E na prática?

Apesar dos benchmarks positivos, muitos desenvolvedores ainda preferem esperar testes em projetos reais antes de tirar conclusões definitivas — o que é totalmente razoável.

A Cursor já liberou o Composer 2 para teste gratuito dentro do IDE para usuários assinantes, o que deve acelerar a validação no mundo real.


🚀 Conclusão

O Composer 2 não é (ainda) o modelo mais poderoso do mercado — mas pode ser um dos mais estratégicos.

Ele mostra que:

  • Não é preciso liderar todos os benchmarks para ganhar espaço
  • Otimização para casos reais + preço baixo pode ser decisivo

Se essa tendência continuar, o futuro da IA para desenvolvimento pode não ser dominado por um único modelo, mas sim por um ecossistema inteligente de ferramentas especializadas.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top