互联网是训练网络代理的一个糟糕课堂。 在一个实时网站上的每一次点击都耗费时间并且有被封禁的风险。这篇研究论文指出了一条不同的道路,通过在一个理想化的网络版本上训练代理。 它使用预测模型来学习网站如何对点击按钮或提交表单等操作做出反应。然后,代理在脑海中进行浏览会话以进行练习。 这种排练在不接触真实网站的情况下进行.. 而且似乎在代理上线后能够转化为更强的表现。 dynaweb的数据表明,webarena上有16%的相对改善,以及webvoyager上的新sota结果。 我们会看到每个主要企业工具都有特定领域的模拟器吗? 链接:arxiv. org/pdf/2601.22149v1