Gli agenti AI possono navigare il web in modo affidabile? La scelta del supporto dell'agente influisce sulla capacità di navigazione web? Per rispondere a queste domande, abbiamo aggiunto Online Mind2Web, un benchmark di navigazione web, alla Holistic Agent Leaderboard (HAL). Abbiamo valutato 9 modelli (inclusi GPT-5 e Sonnet 4) con due supporti per agenti (Browser-Use e SeeAct) su Online Mind2Web 🧵
23,12K