Các tác nhân AI có thể điều hướng web một cách đáng tin cậy không? Sự lựa chọn của khung tác nhân có ảnh hưởng đến khả năng duyệt web không? Để trả lời những câu hỏi này, chúng tôi đã thêm Online Mind2Web, một tiêu chuẩn duyệt web, vào Bảng xếp hạng Tác nhân Toàn diện (HAL). Chúng tôi đã đánh giá 9 mô hình (bao gồm GPT-5 và Sonnet 4) với hai khung tác nhân (Browser-Use và SeeAct) trên Online Mind2Web 🧵
21,37K