Les agents IA peuvent-ils naviguer de manière fiable sur le web ? Le choix de l'architecture de l'agent affecte-t-il la capacité de navigation sur le web ? Pour répondre à ces questions, nous avons ajouté Online Mind2Web, un benchmark de navigation web, au Holistic Agent Leaderboard (HAL). Nous avons évalué 9 modèles (y compris GPT-5 et Sonnet 4) avec deux architectures d'agents (Browser-Use et SeeAct) sur Online Mind2Web 🧵
21,37K