我們僅僅觸及了評估的表面。知識工作者任務的很大一部分在今天最流行的基準中並沒有被捕捉到。 雖然相關能力通常可以從現有的編碼和數學評估中推斷出來,但這些並不能完全代表許多領域(如法律、金融服務、會計或諮詢)中現實任務的複雜性。 我們即將進入一個時代,追求這些工作流程將與編碼一樣受到重視。這將為企業中下一波AI代理用例的解鎖帶來巨大的機會。
will depue
will depue9月5日 07:02
研究人員在能力迭代上的能力往往受到我們測量該能力的能力的限制。我確實相信,進展在很大程度上是評估限制的,而不是人們想像的那樣。 有時評估感覺是因果關係。SWE-Bench是遵循代理編碼,還是代理編碼遵循SWE-Bench? 我們經常聽到解決非常長時間範圍的任務(幾週、幾個月),或者持續學習是實現AGI所需的等等。然而,在哪裡有評估來證明我們模型在這方面的不足呢? 我希望更多的人能致力於AGI完整評估,真正跟蹤經濟價值和影響的評估,持續一個月的任務等等。
82.25K