我们仅仅触及了评估的表面。绝大多数知识工作者的任务并未在今天最流行的基准中得到体现。 虽然能力的质量通常可以从现有的编码和数学评估中推断,但这些并不能完全代表这些现实世界任务的复杂性。 我们即将进入一个时代,在法律、金融服务、制造业、会计、咨询以及许多其他高价值领域追求工作将与编码同样受到重视。
will depue
will depue9月5日 07:02
研究人员在能力迭代上的能力往往受到我们测量该能力的能力的限制。我确实相信,进展在很大程度上是评估限制的,而不是人们想象的那样。 有时评估感觉是因果关系。SWE-Bench是遵循代理编码,还是代理编码遵循SWE-Bench? 我们经常听到解决非常长时间范围的任务(几周、几个月),或者持续学习是实现AGI所需的等等。然而,在哪里有评估来证明我们模型在这方面的不足呢? 我希望更多的人能致力于AGI完整评估,真正跟踪经济价值和影响的评估,持续一个月的任务等等。
4.69K