Czy agenci AI mogą niezawodnie poruszać się po sieci? Czy wybór struktury agenta wpływa na zdolność przeglądania stron internetowych? Aby odpowiedzieć na te pytania, dodaliśmy Online Mind2Web, benchmark przeglądania stron internetowych, do Holistic Agent Leaderboard (HAL). Oceniliśmy 9 modeli (w tym GPT-5 i Sonnet 4) z dwoma strukturami agentów (Browser-Use i SeeAct) na Online Mind2Web 🧵
21,38K