這是世界上最重要的圖表,它正在瘋狂上漲
METR
METR5 小時前
我們估計 Claude Opus 4.6 在軟體任務上的 50% 時間範圍約為 14.5 小時(95% 置信區間為 6 小時到 98 小時)。雖然這是我們報告的最高點估計,但這個測量非常嘈雜,因為我們目前的任務套件幾乎已經飽和。
線性版本完全瘋狂。超指數
對於未接觸過的人來說,這意味著: (某些)任務通常需要人類用戶花費 14 小時來完成,現在可以由 AI 在更短的時間內(可能是幾分鐘)完成,成功機率為 50% 自 2019 年以來,這是 4.5 個數量級的提升,或者自 GPT-2 以來增加了 26,000 倍。
5