O cenário da inteligência artificial acaba de ganhar um novo protagonista. A startup Inception Labs anunciou o lançamento do Mercury2, um modelo de raciocínio que não só entrega alto desempenho, mas também propõe uma mudança radical na forma como modelos de linguagem são construídos.

Uma mudança de paradigma na arquitetura
Diferente da maioria dos grandes modelos atuais, que utilizam a arquitetura Transformer e geram texto token por token (ou seja, palavra por palavra), o Mercury2 abandona completamente essa abordagem.
No lugar, ele utiliza um modelo baseado em difusão (diffusion-based). Em termos simples, isso significa que ele funciona mais como um editor experiente do que como alguém digitando lentamente. Em vez de produzir texto sequencialmente, o Mercury2 consegue revisar e otimizar múltiplos blocos de texto ao mesmo tempo, realizando ajustes globais de forma paralela.
Essa lógica permite ganhos expressivos em tarefas de raciocínio complexo, onde a coerência geral e a otimização simultânea fazem toda a diferença.
Desempenho impressionante
De acordo com dados divulgados na internet, rodando em GPUs NVIDIA Blackwell, o Mercury2 alcançou uma velocidade surpreendente de 1009 tokens por segundo.
Nos testes de latência ponta a ponta, o modelo respondeu em apenas 1,7 segundo. Esse resultado o torna:
- Mais de 8 vezes mais rápido que o Gemini 3 Flash, do Google
- Muito superior ao Claude Haiku 4.5, da Anthropic
E o mais interessante: mesmo com essa velocidade extrema, o Mercury2 mantém qualidade competitiva. Em benchmarks reconhecidos de raciocínio, como GPQA Diamond e AIME, seu desempenho se equipara aos principais modelos leves de alto nível disponíveis atualmente.
Ou seja, não se trata apenas de rapidez — a qualidade acompanha.
Estratégia comercial agressiva
Além da inovação técnica, a Inception Labs também apostou forte na estratégia de mercado.
O custo de uso (tanto para entrada quanto para saída de tokens) é cerca de um quarto do valor praticado por concorrentes diretos. Isso posiciona o Mercury2 como uma alternativa extremamente atraente para empresas que precisam de alto desempenho com controle de custos.
O modelo já está disponível via API e oferece:
- Suporte a até 128 mil tokens de contexto
- Integração com ferramentas externas (tool calling)
- Foco em aplicações de baixa latência
Para quem o Mercury2 é ideal?
O Mercury2 surge como uma solução especialmente interessante para aplicações que exigem respostas quase instantâneas, como:
- Assistentes de voz
- Sistemas de busca inteligentes
- Ferramentas de programação
- Plataformas corporativas com alta demanda de inferência
Ao apostar em uma arquitetura alternativa e romper com o padrão dominante dos Transformers, o Mercury2 pode representar o início de uma nova fase na evolução dos modelos de linguagem.
Se essa abordagem baseada em difusão realmente se consolidar, poderemos estar diante de uma das mudanças mais relevantes no desenvolvimento de IA dos últimos anos.