Nos últimos anos, muita gente tem se perguntado: se dois modelos usam praticamente a mesma quantidade de dados e poder computacional, por que alguns entregam resultados muito melhores?

A startup Moonshot AI (月之暗面) trouxe uma resposta que vai direto ao ponto — e mexe com a base da própria arquitetura dos modelos de IA.
Uma mudança na “fundação” da IA
No dia 16 de março, o Kimi publicou um relatório técnico chamado “Attention Residuals”, propondo uma reformulação de um dos componentes mais fundamentais dos modelos modernos: as residual connections (conexões residuais).
Esse elemento existe desde 2015 e é essencial para permitir que redes neurais profundas sejam treinadas. Mas até hoje, quase ninguém havia questionado seu funcionamento básico.
O resultado da nova abordagem foi impressionante:
Com a mesma capacidade computacional, o novo método alcança o desempenho equivalente a um modelo tradicional que usaria 1,25x mais recursos.
Ou seja: mais eficiência sem aumentar custo.
Por que mexer nisso agora?
As conexões residuais tradicionais funcionam de forma simples: cada camada soma sua informação com a anterior, dando peso igual para tudo.
O problema?
Com redes cada vez mais profundas, essa soma “democrática” começa a virar bagunça.
- Informações importantes se diluem
- Camadas intermediárias perdem impacto
- Parte do modelo passa a trabalhar sem gerar valor real
Na prática, é como uma reunião onde todo mundo fala ao mesmo tempo — e ninguém escuta de verdade.
A ideia brilhante: “girar” a atenção
A equipe do Kimi percebeu algo curioso:
O problema de perda de informação em redes profundas é matematicamente parecido com o problema de “esquecimento” em RNNs ao longo do tempo.
A solução? Aplicar o conceito de atenção (attention) — usado para lidar com sequências — na dimensão de profundidade da rede.
Basicamente, eles “giraram” o mecanismo de atenção em 90 graus.
Agora, em vez de simplesmente somar tudo:
- Cada camada faz uma consulta ativa (query)
- Decide quais camadas anteriores realmente importam
- E define quanto de informação deve ser usado
Resultado: o modelo deixa de ser passivo e passa a ser seletivo e estratégico.
E a questão do custo?
Uma preocupação óbvia seria o aumento de memória e latência.
Para resolver isso, o time criou o Block AttnRes:
- Divide a rede em blocos
- Mantém eficiência computacional
- Limita o aumento de latência a apenas ~2%
Ou seja, ganho alto com custo quase imperceptível.
Resultados práticos
Nos testes, a nova arquitetura mostrou ganhos consistentes:
- +7,5% no GPQA-Diamond (raciocínio científico avançado)
- +3,6% em matemática
- +3,1% em geração de código
Além disso, apresentou forte capacidade de generalização, um dos maiores desafios atuais da IA.
Reação da indústria
O impacto foi imediato.
- Jerry Tworek (OpenAI) chamou de possível início do “Deep Learning 2.0”
- Andrej Karpathy destacou que ainda há muito a explorar no conceito de atenção
Isso mostra que, mesmo após anos de evolução, ainda existem oportunidades enormes ao revisitar os fundamentos.
O que isso significa para o futuro?
Durante a GTC 2026, o fundador da Moonshot AI destacou um ponto importante:
A indústria está chegando a um limite no scaling tradicional.
Ou seja, simplesmente aumentar dados e computação já não é suficiente.
O próximo salto virá de:
- Novas arquiteturas
- Melhorias em componentes fundamentais
- Reinterpretação de conceitos clássicos
Enquanto muitos focam em “melhorias de superfície”, essa pesquisa mostra o poder de mexer na base.
Conclusão
A grande lição aqui é simples, mas poderosa:
Modelos melhores não vêm apenas de mais dados ou mais GPUs — mas de melhores ideias.
Ao repensar algo tão básico quanto as conexões residuais, o Kimi mostrou que ainda há muito espaço para inovação profunda na IA.
E talvez o futuro da inteligência artificial não esteja só em escalar…
mas em entender melhor o que já construímos.