熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
研究人員在能力迭代上的能力往往受到我們測量該能力的能力的限制。我確實相信,進展在很大程度上是評估限制的,而不是人們想像的那樣。
有時評估感覺是因果關係。SWE-Bench是遵循代理編碼,還是代理編碼遵循SWE-Bench?
我們經常聽到解決非常長時間範圍的任務(幾週、幾個月),或者持續學習是實現AGI所需的等等。然而,在哪裡有評估來證明我們模型在這方面的不足呢?
我希望更多的人能致力於AGI完整評估,真正跟蹤經濟價值和影響的評估,持續一個月的任務等等。
161.76K
熱門
排行
收藏