MolmoWeb: o novo agente web open source que “enxerga” a internet como os humanos

O Allen Institute for AI (AI2) anunciou recentemente um projeto que está chamando muita atenção no mundo da inteligência artificial: o MolmoWeb, um agente web totalmente open source que navega na internet de uma forma bem diferente da maioria dos sistemas atuais.
Ao invés de analisar o código das páginas (DOM), como fazem os agentes tradicionais, o MolmoWeb toma decisões apenas observando capturas de tela da página — praticamente da mesma maneira que um humano navega na web.
Esse conceito marca um avanço importante no desenvolvimento de agentes de navegação visual baseados em IA.
Como funciona o MolmoWeb
A lógica por trás do MolmoWeb é surpreendentemente simples.
O sistema segue um ciclo contínuo:
- Captura uma imagem da tela atual do navegador
- Analisa visualmente os elementos da página
- Decide qual ação executar (clicar, rolar, abrir links, etc.)
- Executa a ação
- Repete o processo
Esse modelo “o que você vê é o que a IA vê” traz duas vantagens importantes:
1. Maior robustez
Layouts visuais de páginas costumam mudar menos do que o código interno, o que torna o sistema mais estável.
2. Decisões mais transparentes
Como a IA analisa exatamente a mesma tela que o usuário vê, fica mais fácil entender o motivo de cada ação tomada pelo agente.
Um modelo pequeno com desempenho impressionante
Mesmo com modelos relativamente compactos — 4 bilhões e 8 bilhões de parâmetros — o MolmoWeb apresentou resultados surpreendentes em benchmarks.
Liderança no WebVoyager
No benchmark WebVoyager, utilizado para avaliar agentes que navegam na web, o modelo de 8B parâmetros atingiu 78,2% de sucesso.
Esse resultado:
- Lidera entre os modelos open source
- Chega muito perto do modelo proprietário o3 da OpenAI, que marcou 79,3%
Potencial ainda maior
Os pesquisadores descobriram que, executando a mesma tarefa várias vezes e selecionando o melhor resultado, a taxa de sucesso pode chegar a 94,7%.
Isso indica que o sistema tem grande margem de melhoria apenas com técnicas de execução e seleção de resultados.
Precisão em interfaces
Em testes de localização de elementos de interface (UI), o MolmoWeb chegou a superar o Claude 3.7 da Anthropic.
Esse tipo de capacidade é essencial para agentes que precisam interagir com botões, menus e formulários.
Um dos maiores datasets já criados para agentes web
Além do modelo em si, o AI2 também liberou um enorme conjunto de dados chamado MolmoWebMix.
Ele inclui:
- 36 mil sessões reais de navegação feitas por voluntários humanos
- Mais de 2,2 milhões de pares de screenshot + pergunta/resposta
- Dados sintéticos gerados automaticamente e validados pelo GPT-4o
Um detalhe interessante:
os pesquisadores observaram que dados sintéticos podem ser ainda mais eficientes que trajetórias humanas para ensinar a IA a encontrar o caminho mais eficiente em tarefas web.
Totalmente open source
Seguindo a filosofia de ciência aberta, o AI2 disponibilizou:
- Pesos do modelo
- Dataset
- Código do projeto
Tudo sob a licença Apache 2.0.
O projeto pode ser acessado em plataformas como Hugging Face e GitHub, permitindo que desenvolvedores e pesquisadores do mundo todo contribuam e expandam a tecnologia.
Desafios ainda pela frente
Apesar dos resultados impressionantes, o MolmoWeb ainda enfrenta alguns desafios importantes:
- interpretação de instruções complexas
- lidar com login e autenticação
- questões de compliance legal com termos de uso de sites
- navegação em páginas altamente dinâmicas
Mesmo assim, o AI2 acredita que a abertura do projeto é fundamental.
Segundo os pesquisadores, somente com transparência e colaboração da comunidade será possível competir com o domínio de dados das grandes empresas de tecnologia.
O que isso significa para o futuro da IA
Agentes que conseguem navegar na internet de forma autônoma são vistos como uma das próximas grandes evoluções da inteligência artificial.
Com projetos como o MolmoWeb, o futuro pode incluir:
- assistentes capazes de realizar tarefas completas online
- automação avançada de workflows digitais
- sistemas que pesquisam, comparam e executam ações na web sozinhos
E o mais importante:
com tecnologia aberta e acessível para toda a comunidade.
O MolmoWeb pode ser apenas o começo de uma nova geração de agentes visuais que realmente entendem a web como nós entendemos.