Os agentes de IA conseguem navegar na web de forma confiável? A escolha do suporte do agente afeta a capacidade de navegação na web? Para responder a essas perguntas, adicionamos o Online Mind2Web, um benchmark de navegação na web, ao Holistic Agent Leaderboard (HAL). Avalíamos 9 modelos (incluindo GPT-5 e Sonnet 4) com dois suportes de agente (Browser-Use e SeeAct) no Online Mind2Web 🧵
21,36K