Mistral vs DeepSeek: A Polêmica sobre Inovação e Influência na Arquitetura de IA

Recentemente, uma polêmica sobre a origem da arquitetura da IA gerou um grande debate nas redes sociais. Arthur Mensch, CEO da Mistral, conhecida como a “OpenAI europeia”, afirmou em uma entrevista que o poderoso modelo de código aberto chinês DeepSeek-V3 foi, na verdade, construído com base na arquitetura proposta pela Mistral. Essa declaração imediatamente atraiu a atenção e as críticas de desenvolvedores e internautas ao redor do mundo.

Mistral vs DeepSeek: A Polêmica sobre Inovação e Influência na Arquitetura de IA

A principal controvérsia: “homenagem” ou “inovação própria”?

Arthur Mensch mencionou na entrevista que a Mistral lançou o primeiro modelo de especialistas mistos esparsos (MoE) no início de 2024, e ele acredita que as versões subsequentes do DeepSeek foram construídas sobre essa base, afirmando que ambas “adotaram a mesma arquitetura”.

No entanto, internautas atentos, ao consultarem o artigo original no arXiv, encontraram pontos questionáveis:

  • Tempo de publicação próximo: O artigo da Mixtral e o artigo sobre o MoE do DeepSeek foram publicados com uma diferença de apenas três dias, o que torna difícil determinar quem influenciou quem de fato.
  • Abordagem de arquitetura distinta: Embora ambos sejam sistemas de especialistas mistos esparsos (SMoE), a Mixtral foca mais na otimização de engenharia, enquanto o DeepSeek fez uma profunda reestruturação algorítmica.
  • Design dos especialistas diferente: O DeepSeek introduziu mecanismos de “particionamento fino de especialistas” e “especialistas compartilhados”, desacoplando o conhecimento geral do específico, o que é uma diferença essencial em relação ao design mais simplificado dos especialistas da Mixtral.

Reviravolta tecnológica: quem está reescrevendo a história?

Curiosamente, essa discussão logo teve uma reviravolta. Especialistas em tecnologia apontaram que, ao invés de o DeepSeek ter se inspirado na Mistral, a situação poderia ser o contrário.

  • Arquitetura de retorno: O modelo Mistral3Large, lançado no final de 2025, foi analisado pelos internautas, e revelou que sua arquitetura subjacente é extremamente semelhante à do DeepSeek-V3, especialmente com relação às tecnologias inovadoras como o MLA.
  • Mudança de influência: Internautas brincaram dizendo que a Mistral parece estar tentando “reescrever a história” para recuperar sua posição de liderança, já que o DeepSeek claramente ganhou mais influência na indústria pela inovação em MoE.

“Progresso comum” ou “guerra de palavras” na IA?

Apesar da controvérsia, como Mensch mencionou na primeira parte da entrevista, o espírito do código aberto está no “progresso contínuo sobre as bases dos outros”.

  • Competição acirrada: O DeepSeek já foi divulgado como estando de olho no lançamento de um modelo ainda mais poderoso para o início de 2026.
  • A disputa no código aberto: A Mistral também está atualizando sua família Devstral, tentando recuperar o domínio sobre os agentes inteligentes de programação de código aberto.

Por trás dessa “guerra de palavras”, reflete-se a ansiedade das principais laboratórios de IA do mundo sobre a velocidade de iteração tecnológica. No mundo dos códigos e fórmulas, palavras vazias frequentemente têm pouco peso, e a verdadeira vitória será decidida nas medições de desempenho dos modelos.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top