一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

研究人員在能力迭代上的能力往往受到我們測量該能力的能力的限制。我確實相信，進展在很大程度上是評估限制的，而不是人們想像的那樣。有時評估感覺是因果關係。SWE-Bench是遵循代理編碼，還是代理編碼遵循SWE-Bench？我們經常聽到解決非常長時間範圍的任務（幾週、幾個月），或者持續學習是實現AGI所需的等等。然而，在哪裡有評估來證明我們模型在這方面的不足呢？我希望更多的人能致力於AGI完整評估，真正跟蹤經濟價值和影響的評估，持續一個月的任務等等。

161.76K