Agenții AI pot naviga în mod fiabil pe web? Alegerea schelei agentului afectează capacitatea de navigare pe web? Pentru a răspunde la aceste întrebări, am adăugat Online Mind2Web, un benchmark de navigare pe web, la Holistic Agent Leaderboard (HAL). Am evaluat 9 modele (inclusiv GPT-5 și Sonnet 4) cu două schele de agenți (Browser-Use și SeeAct) pe Online Mind2Web 🧵
21,36K