Aqui está uma nova matéria em português do Brasil, escrita do zero, com linguagem fluida, clara e no estilo que costuma funcionar bem para leitores brasileiros interessados em tecnologia e inovação 👇

Xiaomi abre o jogo e lança seu primeiro grande modelo de IA para robótica
O setor de Inteligência Artificial incorporada (Embodied AI) acaba de ganhar um reforço de peso. A Xiaomi anunciou a liberação do seu primeiro grande modelo de robótica, o Xiaomi-Robotics-0, marcando um passo importante rumo a robôs mais rápidos, inteligentes e acessíveis.
Com 4,7 bilhões de parâmetros, o modelo foi criado para resolver um dos maiores problemas das arquiteturas atuais de VLA (Visão-Linguagem-Ação): a lentidão na tomada de decisões, que acaba deixando os movimentos do robô pouco naturais. A novidade é que o Xiaomi-Robotics-0 consegue fazer inferência em tempo real, mesmo rodando em placas gráficas de consumo, algo essencial para uso prático.
Uma arquitetura inspirada no cérebro humano
Para equilibrar inteligência geral e controle motor preciso, a Xiaomi desenvolveu uma estrutura inovadora chamada MoT (Mixture-of-Transformers), que divide o sistema em dois grandes módulos:
🧠 “Cérebro” visual e linguístico (VLM)
É a base do modelo. Ele interpreta comandos humanos — mesmo quando são vagos ou imprecisos — e entende relações espaciais complexas a partir de imagens de alta resolução.
🤖 “Cerebelo” de execução de ações
Responsável pelos movimentos físicos. Esse módulo usa Diffusion Transformers (DiT) combinados com técnicas de flow matching para gerar blocos de ação contínuos e precisos, garantindo movimentos mais suaves e realistas.
Como o modelo foi treinado: duas etapas bem definidas
A equipe da Xiaomi apostou em um processo de treinamento em duas fases para alcançar um bom equilíbrio entre raciocínio e controle físico:
1️⃣ Pré-treinamento multimodal
O modelo aprende a alinhar percepção visual, linguagem e ações usando um mecanismo chamado Action Proposal, que conecta o espaço de raciocínio ao espaço de movimento. Depois disso, o módulo VLM é congelado e o foco passa a ser o treinamento do DiT.
2️⃣ Pós-treinamento voltado ao mundo real
Para evitar falhas comuns em robôs físicos, como interrupções bruscas de movimento, o sistema utiliza inferência assíncrona, além de técnicas como:
- Clean Action Prefix, que mantém a continuidade dos movimentos
- Λ-shape Attention Mask, que força o modelo a prestar atenção constante ao feedback visual atual
O resultado é um robô muito mais responsivo a mudanças inesperadas no ambiente.
Resultados impressionantes nos testes
O desempenho do Xiaomi-Robotics-0 chamou atenção tanto em simulações quanto em robôs reais:
- 🏆 Simulações: alcançou resultados de ponta (SOTA) nos benchmarks LIBERO, CALVIN e SimplerEnv, superando mais de 30 modelos concorrentes.
- 🤝 Robôs reais: em plataformas com dois braços, o modelo demonstrou excelente coordenação ao desmontar blocos e dobrar toalhas flexíveis, mostrando forte capacidade de generalização física.
Tudo open source: convite para a comunidade
Reforçando sua aposta em inovação aberta, a Xiaomi disponibilizou todo o ecossistema do projeto, incluindo:
- Página técnica oficial
- Código-fonte completo
- Pesos do modelo publicados no Hugging Face
A ideia é estimular pesquisadores, desenvolvedores e entusiastas a colaborarem e expandirem os limites da robótica inteligente.
🔗 Página técnica: https://xiaomi-robotics-0.github.io
🔗 Código aberto: https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
🔗 Pesos do modelo: https://huggingface.co/XiaomiRobotics
Se quiser, posso adaptar o texto para um blog brasileiro, portal de tecnologia, release de imprensa ou até deixar o tom mais informal, estilo internet. Quer seguir por qual caminho? 🚀