Voivatko tekoälyagentit navigoida verkossa luotettavasti? Vaikuttaako agenttitelineen valinta verkkoselauskykyyn? Vastataksemme näihin kysymyksiin lisäsimme Online Mind2Webin, verkkoselailun vertailuarvon, Holistic Agent Leaderboard (HAL) -taulukkoon. Arvioimme 9 mallia (mukaan lukien GPT-5 ja Sonnet 4) kahdella agenttitelineellä (Browser-Use ja SeeAct) Online Mind2Webissä 🧵
23,12K