Kimi revoluciona a base da IA: nova arquitetura supera modelos maiores sem aumentar o custo

Nos últimos anos, muita gente tem se perguntado: se dois modelos usam praticamente a mesma quantidade de dados e poder computacional, por que alguns entregam resultados muito melhores?

A startup Moonshot AI (月之暗面) trouxe uma resposta que vai direto ao ponto — e mexe com a base da própria arquitetura dos modelos de IA.

Uma mudança na “fundação” da IA

No dia 16 de março, o Kimi publicou um relatório técnico chamado “Attention Residuals”, propondo uma reformulação de um dos componentes mais fundamentais dos modelos modernos: as residual connections (conexões residuais).

Esse elemento existe desde 2015 e é essencial para permitir que redes neurais profundas sejam treinadas. Mas até hoje, quase ninguém havia questionado seu funcionamento básico.

O resultado da nova abordagem foi impressionante:

Com a mesma capacidade computacional, o novo método alcança o desempenho equivalente a um modelo tradicional que usaria 1,25x mais recursos.

Ou seja: mais eficiência sem aumentar custo.

Por que mexer nisso agora?

As conexões residuais tradicionais funcionam de forma simples: cada camada soma sua informação com a anterior, dando peso igual para tudo.

O problema?
Com redes cada vez mais profundas, essa soma “democrática” começa a virar bagunça.

Informações importantes se diluem
Camadas intermediárias perdem impacto
Parte do modelo passa a trabalhar sem gerar valor real

Na prática, é como uma reunião onde todo mundo fala ao mesmo tempo — e ninguém escuta de verdade.

A ideia brilhante: “girar” a atenção

A equipe do Kimi percebeu algo curioso:

O problema de perda de informação em redes profundas é matematicamente parecido com o problema de “esquecimento” em RNNs ao longo do tempo.

A solução? Aplicar o conceito de atenção (attention) — usado para lidar com sequências — na dimensão de profundidade da rede.

Basicamente, eles “giraram” o mecanismo de atenção em 90 graus.

Agora, em vez de simplesmente somar tudo:

Cada camada faz uma consulta ativa (query)
Decide quais camadas anteriores realmente importam
E define quanto de informação deve ser usado

Resultado: o modelo deixa de ser passivo e passa a ser seletivo e estratégico.

E a questão do custo?

Uma preocupação óbvia seria o aumento de memória e latência.

Para resolver isso, o time criou o Block AttnRes:

Divide a rede em blocos
Mantém eficiência computacional
Limita o aumento de latência a apenas ~2%

Ou seja, ganho alto com custo quase imperceptível.

Resultados práticos

Nos testes, a nova arquitetura mostrou ganhos consistentes:

+7,5% no GPQA-Diamond (raciocínio científico avançado)
+3,6% em matemática
+3,1% em geração de código

Além disso, apresentou forte capacidade de generalização, um dos maiores desafios atuais da IA.

Reação da indústria

O impacto foi imediato.

Jerry Tworek (OpenAI) chamou de possível início do “Deep Learning 2.0”
Andrej Karpathy destacou que ainda há muito a explorar no conceito de atenção

Isso mostra que, mesmo após anos de evolução, ainda existem oportunidades enormes ao revisitar os fundamentos.

O que isso significa para o futuro?

Durante a GTC 2026, o fundador da Moonshot AI destacou um ponto importante:

A indústria está chegando a um limite no scaling tradicional.

Ou seja, simplesmente aumentar dados e computação já não é suficiente.

O próximo salto virá de:

Novas arquiteturas
Melhorias em componentes fundamentais
Reinterpretação de conceitos clássicos

Enquanto muitos focam em “melhorias de superfície”, essa pesquisa mostra o poder de mexer na base.

Conclusão

A grande lição aqui é simples, mas poderosa:

Modelos melhores não vêm apenas de mais dados ou mais GPUs — mas de melhores ideias.

Ao repensar algo tão básico quanto as conexões residuais, o Kimi mostrou que ainda há muito espaço para inovação profunda na IA.

E talvez o futuro da inteligência artificial não esteja só em escalar…
mas em entender melhor o que já construímos.