AI代理能否可靠地瀏覽網路?代理支架的選擇是否會影響網路瀏覽能力?為了回答這些問題,我們將在線Mind2Web,一個網路瀏覽基準,添加到整體代理排行榜(HAL)。 我們評估了9個模型(包括GPT-5和Sonnet 4),使用兩種代理支架(Browser-Use和SeeAct)在在線Mind2Web上進行測試 🧵
21.35K