Können KI-Agenten zuverlässig im Web navigieren? Beeinflusst die Wahl des Agenten-Scaffolds die Fähigkeit zum Surfen im Web? Um diese Fragen zu beantworten, haben wir Online Mind2Web, einen Benchmark für das Surfen im Web, zum Holistic Agent Leaderboard (HAL) hinzugefügt. Wir haben 9 Modelle (darunter GPT-5 und Sonnet 4) mit zwei Agenten-Scaffolds (Browser-Use und SeeAct) auf Online Mind2Web evaluiert 🧵
21,37K