Bisakah agen AI menavigasi web dengan andal? Apakah pilihan perancah agen memengaruhi kemampuan menjelajah web? Untuk menjawab pertanyaan-pertanyaan ini, kami menambahkan Online Mind2Web, tolok ukur penjelajahan web, ke Papan Peringkat Agen Holistik (HAL). Kami mengevaluasi 9 model (termasuk GPT-5 dan Sonnet 4) dengan dua perancah agen (Browser-Use dan SeeAct) di Online Mind2Web 🧵
21,38K