Os agentes de IA podem navegar na Web de forma confiável? A escolha do andaime do agente afeta a capacidade de navegação na web? Para responder a essas perguntas, adicionamos o Online Mind2Web, um benchmark de navegação na web, ao Holistic Agent Leaderboard (HAL). Avaliamos 9 modelos (incluindo GPT-5 e Sonnet 4) com dois andaimes de agentes (Browser-Use e SeeAct) no Online Mind2Web 🧵
21,36K