Após a abertura de código do modelo de percepção espacial de alta precisão LingBot-Depth ontem, a Lingbo Technology, subsidiária do Ant Group, anunciou hoje a abertura completa do modelo de base de IA incorporada LingBot-VLA. Como um “alicerce inteligente” voltado para cenários reais de operação robótica, o LingBot-VLA alcança capacidades de generalização entre diferentes corpos robóticos e diferentes tarefas, reduz significativamente os custos de pós-treinamento e impulsiona a engenharia prática do conceito de “um cérebro para múltiplas máquinas”.

Nos testes do benchmark aberto de IA incorporada GM-100, desenvolvido pela Universidade Jiao Tong de Xangai (que inclui 100 tarefas reais de operação), o LingBot-VLA foi avaliado em três plataformas robóticas reais diferentes. A taxa média de sucesso em generalização entre diferentes corpos robóticos aumentou de 13,0% do Pi0.5 para 15,7% (sem Depth). Com a introdução de informações de profundidade (com Depth), a capacidade de percepção espacial foi aprimorada e a taxa média de sucesso subiu ainda mais para 17,3%, estabelecendo um novo recorde em avaliações com robôs reais e comprovando sua vantagem de desempenho em cenários do mundo real.
(Legenda: No benchmark GM-100 com robôs reais, o LingBot-VLA supera o Pi0.5 em generalização entre diferentes corpos robóticos)
No benchmark de simulação RoboTwin 2.0 (que inclui 50 tarefas), diante de fortes interferências de aleatoriedade ambiental (como variações de iluminação, objetos aleatórios e perturbações de altura), o LingBot-VLA, graças ao seu mecanismo exclusivo de alinhamento de consultas aprendível e à profunda integração de informações de profundidade, alcançou uma taxa de sucesso 9,92% superior à do Pi0.5, liderando o desempenho de ponta a ponta, da simulação à aplicação no mundo real.
(Legenda: No benchmark de simulação RoboTwin 2.0, o LingBot-VLA supera o Pi0.5 em generalização entre tarefas)
Por muito tempo, diferenças de corpo robótico, de tarefas e de ambientes impuseram sérios desafios de generalização à aplicação prática de modelos de IA incorporada. Desenvolvedores frequentemente precisam coletar grandes volumes de dados específicos para cada hardware e tarefa, realizando pós-treinamentos repetidos, o que eleva diretamente os custos de implementação e dificulta a criação de um modelo de entrega escalável e replicável no setor.
Para enfrentar esses desafios, o LingBot-VLA foi pré-treinado com mais de 20.000 horas de dados reais de robôs, cobrindo nove configurações principais de robôs bímanos (incluindo AgileX, Galaxea R1Pro, R1Lite, AgiBot G1, entre outros). Assim, um mesmo “cérebro” pode ser transferido de forma contínua para diferentes configurações robóticas, mantendo taxas de sucesso e robustez estáveis mesmo diante de mudanças de tarefas e ambientes. Em conjunto com o modelo de percepção espacial de alta precisão LingBot-Depth, o LingBot-VLA obtém representações de profundidade de maior qualidade. Com essa evolução da “visão”, o robô passa a “ver com mais clareza e agir com mais precisão”.
Com suas sólidas capacidades de modelo de base, o LingBot-VLA reduz significativamente a barreira de adaptação para tarefas downstream, exigindo apenas 80 exemplos de demonstração para alcançar migração de tarefas de alta qualidade. Além disso, graças à otimização profunda da base de código, sua eficiência de treinamento é de 1,5 a 2,8 vezes superior a frameworks populares como StarVLA e OpenPI, reduzindo simultaneamente os custos de dados e de computação.
Esta abertura de código não inclui apenas os pesos do modelo, mas também libera um conjunto completo de códigos que abrangem processamento de dados, ajuste fino eficiente e avaliação automatizada. Essa iniciativa encurta significativamente o ciclo de treinamento, reduz as exigências de computação e tempo para a implementação comercial e permite que desenvolvedores adaptem rapidamente o modelo aos seus próprios cenários com menor custo, ampliando substancialmente a utilidade prática do modelo.
Segundo Zhu Xing, CEO da Ant Lingbo Technology, “para que a IA incorporada seja aplicada em larga escala, é essencial contar com modelos de base eficientes. Isso determina diretamente se a tecnologia é utilizável e se seu custo é viável. Com a abertura do LingBot-VLA, esperamos explorar ativamente os limites da IA incorporada e acelerar a transição da pesquisa para uma nova fase de reutilização, validação e aplicação em escala, permitindo que a IA se integre mais rapidamente ao mundo físico e beneficie as pessoas o quanto antes”.
O LingBot-VLA é o primeiro modelo de base de IA incorporada de código aberto do Ant Group e também mais um resultado exploratório da empresa em sua pesquisa em AGI. Zhu Xing destacou que o Ant Group mantém um compromisso firme com a exploração da AGI por meio de um modelo aberto, para o qual criou a InclusionAI, um ecossistema técnico e open source que abrange modelos fundamentais, multimodalidade, raciocínio, novas arquiteturas e IA incorporada. A abertura do LingBot-VLA é uma prática-chave da InclusionAI. “Esperamos colaborar com desenvolvedores de todo o mundo para acelerar a evolução tecnológica e a aplicação em escala da IA incorporada, contribuindo para a chegada mais rápida da AGI.”
De acordo com informações disponíveis, durante a fase de coleta de dados, o LingBot-VLA utilizou plataformas de hardware da Xinghaitu e da Songling. Empresas como Leju, Kupasi, o Centro Nacional e Local de Inovação em Robôs Humanoides, a Beijing Humanoid Robot Innovation Center Co., Ltd., Bodeng Intelligence e Ruilman também forneceram dados de alta qualidade para o pré-treinamento do modelo. Atualmente, o LingBot-VLA já foi adaptado em parceria com fabricantes como Xinghaitu, Songling e Leju, comprovando sua capacidade de migração entre diferentes configurações robóticas.