Kan AI-agenter navigere pålitelig på nettet? Påvirker valget av agentstillas nettleserevnen? For å svare på disse spørsmålene la vi til Online Mind2Web, en referanse for nettsurfing, til Holistic Agent Leaderboard (HAL). Vi evaluerte 9 modeller (inkludert GPT-5 og Sonnet 4) med to agentstillas (Browser-Use og SeeAct) på Online Mind2Web 🧵
21,37K