AI代理能否可靠地浏览网络?代理支架的选择是否会影响网络浏览能力?为了回答这些问题,我们将在线Mind2Web,一个网络浏览基准,添加到整体代理排行榜(HAL)。 我们评估了9个模型(包括GPT-5和Sonnet 4),使用两种代理支架(Browser-Use和SeeAct)在在线Mind2Web上进行测试 🧵
21.35K