我們僅僅觸及了評估的表面。絕大多數知識工作者的任務並未在今天最流行的基準中得到體現。 雖然能力的質量通常可以從現有的編碼和數學評估中推斷,但這些並不能完全代表這些現實世界任務的複雜性。 我們即將進入一個時代,在法律、金融服務、製造業、會計、諮詢以及許多其他高價值領域追求工作將與編碼同樣受到重視。
will depue
will depue9月5日 07:02
研究人員在能力迭代上的能力往往受到我們測量該能力的能力的限制。我確實相信,進展在很大程度上是評估限制的,而不是人們想像的那樣。 有時評估感覺是因果關係。SWE-Bench是遵循代理編碼,還是代理編碼遵循SWE-Bench? 我們經常聽到解決非常長時間範圍的任務(幾週、幾個月),或者持續學習是實現AGI所需的等等。然而,在哪裡有評估來證明我們模型在這方面的不足呢? 我希望更多的人能致力於AGI完整評估,真正跟蹤經濟價值和影響的評估,持續一個月的任務等等。
4.69K