研究人员在能力迭代上的能力往往受到我们测量该能力的能力的限制。我确实相信,进展在很大程度上是评估限制的,而不是人们想象的那样。 有时评估感觉是因果关系。SWE-Bench是遵循代理编码,还是代理编码遵循SWE-Bench? 我们经常听到解决非常长时间范围的任务(几周、几个月),或者持续学习是实现AGI所需的等等。然而,在哪里有评估来证明我们模型在这方面的不足呢? 我希望更多的人能致力于AGI完整评估,真正跟踪经济价值和影响的评估,持续一个月的任务等等。
161.76K