热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们仅仅触及了评估的表面。知识工作者任务的很大一部分在今天最流行的基准中并没有被捕捉到。
虽然相关能力通常可以从现有的编码和数学评估中推断出来,但这些并不能完全代表许多领域(如法律、金融服务、会计或咨询)中现实任务的复杂性。
我们即将进入一个时代,追求这些工作流程将与编码一样受到重视。这将为企业中下一波AI代理用例的解锁带来巨大的机会。

9月5日 07:02
研究人员在能力迭代上的能力往往受到我们测量该能力的能力的限制。我确实相信,进展在很大程度上是评估限制的,而不是人们想象的那样。
有时评估感觉是因果关系。SWE-Bench是遵循代理编码,还是代理编码遵循SWE-Bench?
我们经常听到解决非常长时间范围的任务(几周、几个月),或者持续学习是实现AGI所需的等等。然而,在哪里有评估来证明我们模型在这方面的不足呢?
我希望更多的人能致力于AGI完整评估,真正跟踪经济价值和影响的评估,持续一个月的任务等等。
82.26K
热门
排行
收藏