AReaL v1.0: o framework aberto que permite treinar agentes de IA com RL sem mudar o código

No dia 4 de março, a Ant Group, em parceria com a Universidade Tsinghua, anunciou o lançamento da versão estável do AReaL v1.0, um framework open source voltado para treinamento de agentes de IA com aprendizado por reforço (RL).
A grande promessa do projeto é simples e poderosa: permitir que qualquer agente de IA seja conectado ao treinamento de RL com apenas uma alteração de endereço de API — sem necessidade de modificar o código do agente.
Com o crescimento acelerado dos AI Agents em 2026, ferramentas como LangChain, Claude Code e OpenClaw ganharam enorme popularidade. Porém, esse avanço também revelou dois desafios importantes para desenvolvedores.
Os dois grandes gargalos dos agentes de IA
Apesar do entusiasmo em torno dos agentes inteligentes, muitos projetos enfrentam dificuldades quando tentam evoluir seus sistemas. Dois problemas são particularmente comuns:
1. Alto custo de integração para treinamento
Cada framework de agentes possui sua própria estrutura de interfaces.
Na prática, isso significa que cada nova integração com sistemas de treinamento exige adaptações específicas e muito código adicional.
2. Falta de evolução contínua dos agentes
A maioria dos agentes depende totalmente do modelo base já treinado.
Depois que o sistema é implantado, ele praticamente não evolui mais, pois não consegue aprender com as interações reais dos usuários.
Isso limita bastante o potencial dos agentes, já que o nível de inteligência fica praticamente “congelado” no momento do lançamento.
A proposta do AReaL: treinamento contínuo para agentes
O AReaL surge justamente para resolver esses problemas.
Ele é descrito como o primeiro sistema de treinamento de modelos com RL totalmente assíncrono e desacoplado da inferência. Na prática, isso permite que agentes:
- Interajam com tarefas reais
- Recebam feedback dos usuários
- Atualizem continuamente seu modelo de decisão
Ou seja, o agente aprende enquanto está sendo utilizado.
Integração simples: basta mudar o endpoint
O segredo da integração fácil está em uma camada intermediária chamada Proxy Worker.
Esse componente funciona como um intermediário entre o agente e o sistema de treinamento. Assim, em vez de modificar o código do agente, o desenvolvedor só precisa:
- Alterar o base_url
- Configurar a api_key
- Apontar para o gateway do AReaL
Por exemplo, no caso do OpenClaw, basta alterar essas configurações no arquivo de configuração do agente.
A partir daí:
- O agente continua executando tarefas normalmente
- Usuários podem avaliar o desempenho do agente
- O AReaL coleta automaticamente os dados de treinamento
- O modelo é atualizado continuamente em segundo plano
Com o tempo, o agente se torna mais eficiente e inteligente.
Archon: o motor de treinamento nativo
O AReaL v1.0 também traz um motor de treinamento próprio chamado Archon.
Ele foi construído com base no PyTorch e oferece suporte completo a paralelismo 5D, incluindo:
- paralelismo de dados
- paralelismo de pipeline
- paralelismo de tensor
- paralelismo de contexto
- paralelismo de especialistas (MoE)
Essa arquitetura permite treinar modelos MoE com centenas de bilhões de parâmetros com mais flexibilidade.
Além disso, o sistema permite diferentes backends de treinamento e inferência, facilitando a implantação em ambientes variados.
Um feito impressionante de engenharia
Um dos fatos mais surpreendentes do projeto é a velocidade de desenvolvimento.
O motor Archon foi desenvolvido do zero em apenas 32 dias, o equivalente a cerca de 1 pessoa-mês de trabalho.
Nesse período:
- quase 1 milhão de linhas de código foram modificadas
- o sistema foi totalmente implementado
- e validado para treinar modelos MoE de grande escala.
Como isso foi possível?
Desenvolvimento assistido por IA
O AReaL integra um sistema completo de desenvolvimento assistido por IA, que ajuda em todas as etapas do processo de engenharia:
- planejamento
- escrita de código
- validação
- criação de pull requests
Em partes críticas do projeto — como paralelismo MoE, otimização de memória e implementação de algoritmos — o sistema atua como um especialista virtual, oferecendo sugestões e verificações durante as alterações no código.
Segundo a equipe do projeto, esse modelo de desenvolvimento não é apenas uma ferramenta de produtividade, mas uma nova forma de construir infraestruturas complexas de IA.
O futuro do AReaL
A equipe responsável pelo projeto afirmou que continuará evoluindo o framework nas seguintes áreas:
- melhorias no motor de treinamento
- maior facilidade de uso
- suporte para agentes multimodais
O objetivo é transformar o AReaL em uma base sólida para a próxima geração de agentes inteligentes que aprendem continuamente.
Código aberto
O AReaL v1.0 já está disponível em código aberto na comunidade inclusionAI.
GitHub:
https://github.com/inclusionAI/AReaL
Paper científico:
https://arxiv.org/abs/2505.24298
Se a evolução recente dos AI Agents mostrou o potencial dessa tecnologia, projetos como o AReaL indicam o próximo passo: agentes que não apenas executam tarefas, mas também aprendem e melhoram continuamente com o uso no mundo real.