Ant Group abre o código do LingBot-VLA e acelera a evolução de robôs inteligentes com IA cross-embodiment

Recentemente, a Ant Group, por meio de sua subsidiária Ant Lingbo Technology, anunciou oficialmente a abertura total do código de seu grande modelo de inteligência incorporada — LingBot-VLA, juntamente com os códigos de pós-treinamento relacionados. Essa iniciativa não apenas marca um avanço importante no campo da robótica, como também comprova a capacidade do modelo de realizar transferência entre diferentes tipos de robôs (cross-embodiment), impulsionando ainda mais o desenvolvimento de robôs inteligentes.

Atualmente, o LingBot-VLA já foi adaptado com sucesso para diversos fabricantes de robôs, como Xinghaitu, Songling e Leju. Com o uso de uma cadeia de ferramentas de pós-treinamento desenvolvida pela Ant Lingbo Technology, o modelo consegue atingir uma eficiência de treinamento de 261 amostras por segundo em uma configuração com 8 GPUs. Esse desempenho é de 1,5 a 2,8 vezes superior aos frameworks mais populares do mercado, como StarVLA e OpenPI, reduzindo de forma significativa os custos com dados e poder computacional.

Com base em uma grande quantidade de dados do mundo real, a Ant Lingbo realizou, pela primeira vez, um estudo sistemático sobre o desempenho de modelos VLA em tarefas reais de robótica. Os resultados mostram que, à medida que o volume de dados de pré-treinamento aumenta, a taxa de sucesso do modelo em tarefas downstream também cresce de forma contínua. Desde treinamentos com 3.000 horas de dados até chegar a 20.000 horas, a taxa de sucesso apresentou um crescimento consistente, evidenciando uma relação positiva entre quantidade de dados e desempenho do modelo.

Ainda mais animador é o desempenho do LingBot-VLA no benchmark aberto GM-100, disponibilizado pela Universidade Jiao Tong de Xangai. Em três plataformas diferentes de robôs reais, a taxa média de sucesso em generalização cross-embodiment aumentou de 13,0% para 15,7%. Com a introdução de informações de profundidade, esse índice subiu ainda mais, alcançando 17,3%.

Além disso, no dia 27 de janeiro, a Ant Lingbo Technology lançou o modelo de percepção espacial LingBot-Depth. Esse modelo é focado em complementação de profundidade em cenários reais, utilizando câmeras 3D estéreo para a coleta e validação de dados RGB-Depth. O LingBot-Depth é capaz de transformar dados de profundidade incompletos e afetados por ruídos em medições tridimensionais de alta qualidade, melhorando significativamente a percepção de profundidade e a compreensão 3D do ambiente.

Em diversos testes de benchmark, o LingBot-Depth apresentou excelente desempenho em tarefas como complementação de profundidade e estimativa de profundidade monocular, demonstrando liderança do setor em termos de precisão e estabilidade. A validação bem-sucedida desse modelo também oferece capacidades de visão tridimensional muito mais precisas para terminais inteligentes, como robôs e veículos autônomos.

Leave a Comment Cancel Reply