No contexto do avanço para a “inteligência corporal” nos robôs, fazer com que corpos metálicos possuam uma “sensibilidade tátil” semelhante à dos humanos se tornou a chave para superar os obstáculos nas operações delicadas. Em 26 de janeiro de 2026, o Centro Nacional de Robótica e a Weitai Robotics anunciaram o lançamento do primeiro e maior conjunto de dados multimodal do mundo, baseado em visão e tato – o Baihu-VTouch. O nascimento desse conjunto de dados não só preencheu uma lacuna no campo da interação de visão e tato em robôs, como também oferece para os desenvolvedores globais de robôs uma mina digital de alto valor.

A maior escala global: 60.000 minutos de “sensibilidade real”
Diferente dos dados fragmentados e limitados das experiências anteriores, o Baihu-VTouch realiza um salto significativo tanto em escala quanto em integridade:
- Escala impressionante: O conjunto de dados ultrapassa 60.000 minutos, contendo cerca de 90,72 milhões de pares de amostras de contato real com objetos.
- Cobertura multidimensional: Integra dados de sensores de visão e tato, dados de profundidade RGB-D e dados de posição de articulações, realizando um alinhamento profundo das informações multimodais.
- Alta precisão de gravação: Os sensores suportam uma resolução de 640×480 e uma taxa de atualização de 120Hz, podendo captar as mais mínimas variações físicas durante o processo de contato.
Paradigma Transversal: De “Qinglong” aos “dispositivos portáteis”
A principal inovação desse conjunto de dados está em sua coleta “transversal”, que quebra as barreiras de dados isolados de diferentes dispositivos e abrange várias configurações de robôs populares:
- Robôs humanoides: Como o robô humanoide completo “Qinglong”, que representa configurações dinâmicas complexas.
- Robôs híbridos com rodas: Como o D-Wheel e outros robôs compostos com rodas e braços flexíveis.
- Dispositivos inteligentes portáteis: Até mesmo dispositivos como as pinças manuais pika estão incluídos.
Essa cobertura transversal significa que os algoritmos treinados pelos desenvolvedores terão maior versatilidade, permitindo que robôs de diferentes formas “aprendam” capacidades sensoriais similares de maneira rápida.
Tarefas em “matriz”: Fazendo os robôs lidarem com a vida cotidiana
Para que a IA resolva problemas reais, o Baihu-VTouch construiu uma matriz de tarefas extremamente sistematizada, baseada em quatro cenários de aplicação:
- Serviços domésticos: Lidar com interações complexas no ambiente doméstico.
- Serviços alimentícios: Manipulação precisa de objetos frágeis e flexíveis.
- Fabricação industrial: Ajustes de controle de força em processos de montagem de precisão.
- Operações especiais: Execuções precisas em ambientes extremos ou especiais.
Essa estrutura de tarefas abrange mais de 100 habilidades atômicas e 260 tarefas intensivas em contato. Dados de pesquisa mostram que, ao incluir percepção de visão e tato, 68% das tarefas obtiveram uma descrição de estado de contato mais completa e contínua, o que é crucial para a recuperação de falhas e controle de força preciso.
Com a abertura gradual dos resultados de pesquisa e a documentação do conjunto de dados Baihu-VTouch, a indústria de robótica global pode estar prestes a vivenciar uma “despertar sensorial”. Quando os robôs não precisarem mais apenas “ver” o mundo para compreendê-lo, mas também puderem “tocar” para entender as leis físicas, o futuro da inteligência corporal estará ao nosso alcance.