Це найважливіший графік у світі, і він просто шаленіє
METR
METR14 годин тому
Ми оцінюємо, що Claude Opus 4.6 має 50% часовий горизонт близько 14,5 годин (95% CI від 6 до 98 годин) для виконання програмних завдань. Хоча це найвища оцінка, яку ми повідомляли, це вимірювання надзвичайно шумне, оскільки наш поточний набір завдань майже перенасичений.
Лінійна версія — це повна божевільність. суперекспоненціал
Для непосвячених це означає: (Деякі) завдання, які зазвичай у людини займали б 14 годин, тепер можуть бути виконані ШІ (за значно коротший час, ймовірно за кілька хвилин) з ймовірністю 50% це на 4,5 порядки величини з 2019 року, або на 26 000 разів більше, ніж у GPT-2
34