DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Kunnen AI-agenten betrouwbaar het web navigeren? Beïnvloedt de keuze van het agent scaffold de webbrowsecapaciteit? Om deze vragen te beantwoorden, hebben we Online Mind2Web, een benchmark voor webbrowsen, toegevoegd aan de Holistic Agent Leaderboard (HAL). We hebben 9 modellen geëvalueerd (inclusief GPT-5 en Sonnet 4) met twee agent scaffolds (Browser-Use en SeeAct) op Online Mind2Web 🧵

23,12K

Boven

Positie

Favorieten