这是世界上最重要的图表,它正在疯狂上涨
METR
METR2月21日 03:05
我们估计 Claude Opus 4.6 在软件任务上的 50% 时间范围约为 14.5 小时(95% 置信区间为 6 小时到 98 小时)。虽然这是我们报告的最高点估计,但这个测量非常嘈杂,因为我们当前的任务套件几乎已经饱和。
线性版本完全疯狂。超指数
对于初学者来说,这意味着: (某些)任务通常需要人类用户花费 14 小时完成,现在可以由 AI 在更短的时间内(可能是几分钟)完成,概率为 50% 自 2019 年以来,这相当于 4.5 个数量级,或者自 GPT-2 以来增加了 26,000 倍。
53