Kunnen AI-agenten betrouwbaar het web navigeren? Beïnvloedt de keuze van het agent scaffold de webbrowsecapaciteit? Om deze vragen te beantwoorden, hebben we Online Mind2Web, een benchmark voor webbrowsen, toegevoegd aan de Holistic Agent Leaderboard (HAL). We hebben 9 modellen geëvalueerd (inclusief GPT-5 en Sonnet 4) met twee agent scaffolds (Browser-Use en SeeAct) op Online Mind2Web 🧵
23,12K