AI エージェントは Web を確実にナビゲートできますか?エージェントの足場の選択は、Webブラウジング能力に影響しますか?これらの質問に答えるために、Web ブラウジング ベンチマークである Online Mind2Web を Holistic Agent Leaderboard (HAL) に追加しました。 オンラインMind2Web 🧵上で2つのエージェント足場(Browser-UseとSeeAct)を持つ9つのモデル(GPT-5とSonnet 4を含む)を評価しました
21.37K