Часто здатність дослідника повторювати здатність обмежена нашою здатністю вимірювати цю здатність. Я вважаю, що прогрес більш обмежений, ніж люди думають. Іноді евали відчувають причинно-наслідковий зв'язок. чи SWE-Bench слідував агентному кодуванню, чи агентичне кодування слідувало SWE-bench? Ми часто чуємо про вирішення дійсно довгострокових завдань (тижні, місяці), або про необхідність постійного навчання для AGI і т.д. Але де тут евали, щоб довести недоліки наших моделей? Мені б хотілося, щоб більше людей працювали над AGI-повними евалами, евалами, які дійсно відстежують економічну цінність і вплив, місячними завданнями тощо.
161,75K