هل يمكن لوكلاء الذكاء الاصطناعي التنقل بشكل موثوق في الويب؟ هل يؤثر اختيار سقالة الوكيل على قدرة تصفح الويب؟ للإجابة على هذه الأسئلة ، أضفنا Online Mind2Web ، وهو معيار لتصفح الويب ، إلى لوحة المتصدرين الشاملة للوكيل (HAL). قمنا بتقييم 9 نماذج (بما في ذلك GPT-5 و Sonnet 4) باستخدام سقالتين عاملتين (Browser-Use و SeeAct) على Online Mind2Web 🧵
‏‎21.38‏K