{"id":3002,"date":"2026-03-26T02:24:02","date_gmt":"2026-03-26T02:24:02","guid":{"rendered":"https:\/\/hizhongguo.com\/index.php\/2026\/03\/26\/molmoweb-o-agente-open-source-que-navega-na-internet-como-um-humano-e-rivaliza-com-modelos-lideres\/"},"modified":"2026-03-26T02:24:02","modified_gmt":"2026-03-26T02:24:02","slug":"molmoweb-o-agente-open-source-que-navega-na-internet-como-um-humano-e-rivaliza-com-modelos-lideres","status":"publish","type":"post","link":"https:\/\/hizhongguo.com\/index.php\/2026\/03\/26\/molmoweb-o-agente-open-source-que-navega-na-internet-como-um-humano-e-rivaliza-com-modelos-lideres\/","title":{"rendered":"MolmoWeb: o agente open source que navega na internet como um humano e rivaliza com modelos l\u00edderes"},"content":{"rendered":"<p><strong>MolmoWeb: o novo agente web open source que \u201cenxerga\u201d a internet como os humanos<\/strong><\/p>\n<figure id=\"attachment_mmd_3001\" class=\"wp-block-image \"><img decoding=\"async\" width=\"1536\" height=\"1024\" src=\"https:\/\/hizhongguo.com\/wp-content\/uploads\/2026\/03\/cover-603.webp\" class=\"attachment-full size-full\" alt=\"MolmoWeb: o agente open source que navega na internet como um humano e rivaliza com modelos l\u00edderes\" loading=\"lazy\" \/><\/figure>\n<p>O <strong>Allen Institute for AI (AI2)<\/strong> anunciou recentemente um projeto que est\u00e1 chamando muita aten\u00e7\u00e3o no mundo da intelig\u00eancia artificial: o <strong>MolmoWeb<\/strong>, um agente web totalmente open source que navega na internet de uma forma bem diferente da maioria dos sistemas atuais.<\/p>\n<p>Ao inv\u00e9s de analisar o c\u00f3digo das p\u00e1ginas (DOM), como fazem os agentes tradicionais, o MolmoWeb toma decis\u00f5es <strong>apenas observando capturas de tela da p\u00e1gina<\/strong> \u2014 praticamente da mesma maneira que um humano navega na web.<\/p>\n<p>Esse conceito marca um avan\u00e7o importante no desenvolvimento de <strong>agentes de navega\u00e7\u00e3o visual baseados em IA<\/strong>.<\/p>\n<hr \/>\n<h2>Como funciona o MolmoWeb<\/h2>\n<p>A l\u00f3gica por tr\u00e1s do MolmoWeb \u00e9 surpreendentemente simples.<\/p>\n<p>O sistema segue um ciclo cont\u00ednuo:<\/p>\n<ol>\n<li>Captura uma <strong>imagem da tela atual do navegador<\/strong><\/li>\n<li>Analisa visualmente os elementos da p\u00e1gina<\/li>\n<li>Decide qual a\u00e7\u00e3o executar (clicar, rolar, abrir links, etc.)<\/li>\n<li>Executa a a\u00e7\u00e3o<\/li>\n<li>Repete o processo<\/li>\n<\/ol>\n<p>Esse modelo \u201co que voc\u00ea v\u00ea \u00e9 o que a IA v\u00ea\u201d traz duas vantagens importantes:<\/p>\n<p><strong>1. Maior robustez<\/strong><br \/>\nLayouts visuais de p\u00e1ginas costumam mudar menos do que o c\u00f3digo interno, o que torna o sistema mais est\u00e1vel.<\/p>\n<p><strong>2. Decis\u00f5es mais transparentes<\/strong><br \/>\nComo a IA analisa exatamente a mesma tela que o usu\u00e1rio v\u00ea, fica mais f\u00e1cil entender o motivo de cada a\u00e7\u00e3o tomada pelo agente.<\/p>\n<hr \/>\n<h2>Um modelo pequeno com desempenho impressionante<\/h2>\n<p>Mesmo com modelos relativamente compactos \u2014 <strong>4 bilh\u00f5es e 8 bilh\u00f5es de par\u00e2metros<\/strong> \u2014 o MolmoWeb apresentou resultados surpreendentes em benchmarks.<\/p>\n<h3>Lideran\u00e7a no WebVoyager<\/h3>\n<p>No benchmark <strong>WebVoyager<\/strong>, utilizado para avaliar agentes que navegam na web, o modelo de <strong>8B par\u00e2metros atingiu 78,2% de sucesso<\/strong>.<\/p>\n<p>Esse resultado:<\/p>\n<ul>\n<li>Lidera entre os modelos open source<\/li>\n<li>Chega muito perto do modelo propriet\u00e1rio <strong>o3 da OpenAI<\/strong>, que marcou <strong>79,3%<\/strong><\/li>\n<\/ul>\n<h3>Potencial ainda maior<\/h3>\n<p>Os pesquisadores descobriram que, executando a mesma tarefa v\u00e1rias vezes e selecionando o melhor resultado, a taxa de sucesso pode chegar a <strong>94,7%<\/strong>.<\/p>\n<p>Isso indica que o sistema tem <strong>grande margem de melhoria apenas com t\u00e9cnicas de execu\u00e7\u00e3o e sele\u00e7\u00e3o de resultados<\/strong>.<\/p>\n<h3>Precis\u00e3o em interfaces<\/h3>\n<p>Em testes de <strong>localiza\u00e7\u00e3o de elementos de interface (UI)<\/strong>, o MolmoWeb chegou a <strong>superar o Claude 3.7 da Anthropic<\/strong>.<\/p>\n<p>Esse tipo de capacidade \u00e9 essencial para agentes que precisam interagir com bot\u00f5es, menus e formul\u00e1rios.<\/p>\n<hr \/>\n<h2>Um dos maiores datasets j\u00e1 criados para agentes web<\/h2>\n<p>Al\u00e9m do modelo em si, o AI2 tamb\u00e9m liberou um enorme conjunto de dados chamado <strong>MolmoWebMix<\/strong>.<\/p>\n<p>Ele inclui:<\/p>\n<ul>\n<li><strong>36 mil sess\u00f5es reais de navega\u00e7\u00e3o<\/strong> feitas por volunt\u00e1rios humanos  <\/li>\n<li>Mais de <strong>2,2 milh\u00f5es de pares de screenshot + pergunta\/resposta<\/strong><\/li>\n<li>Dados sint\u00e9ticos gerados automaticamente e <strong>validados pelo GPT-4o<\/strong><\/li>\n<\/ul>\n<p>Um detalhe interessante:<br \/>\nos pesquisadores observaram que <strong>dados sint\u00e9ticos podem ser ainda mais eficientes que trajet\u00f3rias humanas<\/strong> para ensinar a IA a encontrar o caminho mais eficiente em tarefas web.<\/p>\n<hr \/>\n<h2>Totalmente open source<\/h2>\n<p>Seguindo a filosofia de ci\u00eancia aberta, o AI2 disponibilizou:<\/p>\n<ul>\n<li><strong>Pesos do modelo<\/strong><\/li>\n<li><strong>Dataset<\/strong><\/li>\n<li><strong>C\u00f3digo do projeto<\/strong><\/li>\n<\/ul>\n<p>Tudo sob a licen\u00e7a <strong>Apache 2.0<\/strong>.<\/p>\n<p>O projeto pode ser acessado em plataformas como <strong>Hugging Face<\/strong> e <strong>GitHub<\/strong>, permitindo que desenvolvedores e pesquisadores do mundo todo contribuam e expandam a tecnologia.<\/p>\n<hr \/>\n<h2>Desafios ainda pela frente<\/h2>\n<p>Apesar dos resultados impressionantes, o MolmoWeb ainda enfrenta alguns desafios importantes:<\/p>\n<ul>\n<li>interpreta\u00e7\u00e3o de <strong>instru\u00e7\u00f5es complexas<\/strong><\/li>\n<li>lidar com <strong>login e autentica\u00e7\u00e3o<\/strong><\/li>\n<li>quest\u00f5es de <strong>compliance legal<\/strong> com termos de uso de sites<\/li>\n<li>navega\u00e7\u00e3o em p\u00e1ginas altamente din\u00e2micas<\/li>\n<\/ul>\n<p>Mesmo assim, o AI2 acredita que a abertura do projeto \u00e9 fundamental.<\/p>\n<p>Segundo os pesquisadores, <strong>somente com transpar\u00eancia e colabora\u00e7\u00e3o da comunidade ser\u00e1 poss\u00edvel competir com o dom\u00ednio de dados das grandes empresas de tecnologia<\/strong>.<\/p>\n<hr \/>\n<h2>O que isso significa para o futuro da IA<\/h2>\n<p>Agentes que conseguem navegar na internet de forma aut\u00f4noma s\u00e3o vistos como uma das pr\u00f3ximas grandes evolu\u00e7\u00f5es da intelig\u00eancia artificial.<\/p>\n<p>Com projetos como o MolmoWeb, o futuro pode incluir:<\/p>\n<ul>\n<li><strong>assistentes capazes de realizar tarefas completas online<\/strong><\/li>\n<li>automa\u00e7\u00e3o avan\u00e7ada de workflows digitais<\/li>\n<li>sistemas que pesquisam, comparam e executam a\u00e7\u00f5es na web sozinhos<\/li>\n<\/ul>\n<p>E o mais importante:<br \/>\ncom tecnologia <strong>aberta e acess\u00edvel para toda a comunidade<\/strong>.<\/p>\n<p>O MolmoWeb pode ser apenas o come\u00e7o de uma nova gera\u00e7\u00e3o de <strong>agentes visuais que realmente entendem a web como n\u00f3s entendemos<\/strong>.<\/p>","protected":false},"excerpt":{"rendered":"<p>MolmoWeb: o novo agente web open source que \u201cenxerga\u201d a internet como os humanos O Allen Institute for AI (AI2) [&hellip;]<\/p>","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[1],"tags":[],"class_list":["post-3002","post","type-post","status-publish","format-standard","hentry","category-ai-news"],"_links":{"self":[{"href":"https:\/\/hizhongguo.com\/index.php\/wp-json\/wp\/v2\/posts\/3002","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/hizhongguo.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/hizhongguo.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/hizhongguo.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/hizhongguo.com\/index.php\/wp-json\/wp\/v2\/comments?post=3002"}],"version-history":[{"count":0,"href":"https:\/\/hizhongguo.com\/index.php\/wp-json\/wp\/v2\/posts\/3002\/revisions"}],"wp:attachment":[{"href":"https:\/\/hizhongguo.com\/index.php\/wp-json\/wp\/v2\/media?parent=3002"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/hizhongguo.com\/index.php\/wp-json\/wp\/v2\/categories?post=3002"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/hizhongguo.com\/index.php\/wp-json\/wp\/v2\/tags?post=3002"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}