MolmoWeb: o agente open source que navega na internet como um humano e rivaliza com modelos líderes

MolmoWeb: o novo agente web open source que “enxerga” a internet como os humanos

MolmoWeb: o agente open source que navega na internet como um humano e rivaliza com modelos líderes

O Allen Institute for AI (AI2) anunciou recentemente um projeto que está chamando muita atenção no mundo da inteligência artificial: o MolmoWeb, um agente web totalmente open source que navega na internet de uma forma bem diferente da maioria dos sistemas atuais.

Ao invés de analisar o código das páginas (DOM), como fazem os agentes tradicionais, o MolmoWeb toma decisões apenas observando capturas de tela da página — praticamente da mesma maneira que um humano navega na web.

Esse conceito marca um avanço importante no desenvolvimento de agentes de navegação visual baseados em IA.


Como funciona o MolmoWeb

A lógica por trás do MolmoWeb é surpreendentemente simples.

O sistema segue um ciclo contínuo:

  1. Captura uma imagem da tela atual do navegador
  2. Analisa visualmente os elementos da página
  3. Decide qual ação executar (clicar, rolar, abrir links, etc.)
  4. Executa a ação
  5. Repete o processo

Esse modelo “o que você vê é o que a IA vê” traz duas vantagens importantes:

1. Maior robustez
Layouts visuais de páginas costumam mudar menos do que o código interno, o que torna o sistema mais estável.

2. Decisões mais transparentes
Como a IA analisa exatamente a mesma tela que o usuário vê, fica mais fácil entender o motivo de cada ação tomada pelo agente.


Um modelo pequeno com desempenho impressionante

Mesmo com modelos relativamente compactos — 4 bilhões e 8 bilhões de parâmetros — o MolmoWeb apresentou resultados surpreendentes em benchmarks.

Liderança no WebVoyager

No benchmark WebVoyager, utilizado para avaliar agentes que navegam na web, o modelo de 8B parâmetros atingiu 78,2% de sucesso.

Esse resultado:

  • Lidera entre os modelos open source
  • Chega muito perto do modelo proprietário o3 da OpenAI, que marcou 79,3%

Potencial ainda maior

Os pesquisadores descobriram que, executando a mesma tarefa várias vezes e selecionando o melhor resultado, a taxa de sucesso pode chegar a 94,7%.

Isso indica que o sistema tem grande margem de melhoria apenas com técnicas de execução e seleção de resultados.

Precisão em interfaces

Em testes de localização de elementos de interface (UI), o MolmoWeb chegou a superar o Claude 3.7 da Anthropic.

Esse tipo de capacidade é essencial para agentes que precisam interagir com botões, menus e formulários.


Um dos maiores datasets já criados para agentes web

Além do modelo em si, o AI2 também liberou um enorme conjunto de dados chamado MolmoWebMix.

Ele inclui:

  • 36 mil sessões reais de navegação feitas por voluntários humanos
  • Mais de 2,2 milhões de pares de screenshot + pergunta/resposta
  • Dados sintéticos gerados automaticamente e validados pelo GPT-4o

Um detalhe interessante:
os pesquisadores observaram que dados sintéticos podem ser ainda mais eficientes que trajetórias humanas para ensinar a IA a encontrar o caminho mais eficiente em tarefas web.


Totalmente open source

Seguindo a filosofia de ciência aberta, o AI2 disponibilizou:

  • Pesos do modelo
  • Dataset
  • Código do projeto

Tudo sob a licença Apache 2.0.

O projeto pode ser acessado em plataformas como Hugging Face e GitHub, permitindo que desenvolvedores e pesquisadores do mundo todo contribuam e expandam a tecnologia.


Desafios ainda pela frente

Apesar dos resultados impressionantes, o MolmoWeb ainda enfrenta alguns desafios importantes:

  • interpretação de instruções complexas
  • lidar com login e autenticação
  • questões de compliance legal com termos de uso de sites
  • navegação em páginas altamente dinâmicas

Mesmo assim, o AI2 acredita que a abertura do projeto é fundamental.

Segundo os pesquisadores, somente com transparência e colaboração da comunidade será possível competir com o domínio de dados das grandes empresas de tecnologia.


O que isso significa para o futuro da IA

Agentes que conseguem navegar na internet de forma autônoma são vistos como uma das próximas grandes evoluções da inteligência artificial.

Com projetos como o MolmoWeb, o futuro pode incluir:

  • assistentes capazes de realizar tarefas completas online
  • automação avançada de workflows digitais
  • sistemas que pesquisam, comparam e executam ações na web sozinhos

E o mais importante:
com tecnologia aberta e acessível para toda a comunidade.

O MolmoWeb pode ser apenas o começo de uma nova geração de agentes visuais que realmente entendem a web como nós entendemos.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top