Могут ли агенты ИИ надежно ориентироваться в интернете? Влияет ли выбор каркаса агента на способность к веб-серфингу? Чтобы ответить на эти вопросы, мы добавили Online Mind2Web, эталон веб-серфинга, в Рейтинг Глобальных Агента (HAL). Мы оценили 9 моделей (включая GPT-5 и Sonnet 4) с двумя каркасами агентов (Browser-Use и SeeAct) на Online Mind2Web 🧵
21,37K