Kan AI-agenter navigera på webben på ett tillförlitligt sätt? Påverkar valet av agentställning förmågan att surfa? För att svara på dessa frågor lade vi till Online Mind2Web, ett riktmärke för webbsurfning, till Holistic Agent Leaderboard (HAL). Vi utvärderade 9 modeller (inklusive GPT-5 och Sonnet 4) med två agentställningar (Browser-Use och SeeAct) på Online Mind2Web 🧵
21,36K