Ми ледве дряпаємо поверхню на евалі. Значна частина завдань інтелектуальних працівників не відображена в найпопулярніших на сьогоднішній день бенчмарках. Хоча відповідні можливості часто можна екстраполювати на існуючі знання з кодування та математики, вони не повністю відображають складність реальних завдань у багатьох галузях, таких як юриспруденція, фінансові послуги, бухгалтерський облік або консалтинг. Незабаром ми вступимо в епоху, коли виконання цих робочих процесів буде цінуватися так само, як і кодування. Це стане величезним відкриттям для наступної хвилі випадків використання агентів штучного інтелекту в корпоративному секторі.
will depue
will depue5 вер., 07:02
Часто здатність дослідника повторювати здатність обмежена нашою здатністю вимірювати цю здатність. Я вважаю, що прогрес більш обмежений, ніж люди думають. Іноді евали відчувають причинно-наслідковий зв'язок. чи SWE-Bench слідував агентному кодуванню, чи агентичне кодування слідувало SWE-bench? Ми часто чуємо про вирішення дійсно довгострокових завдань (тижні, місяці), або про необхідність постійного навчання для AGI і т.д. Але де тут евали, щоб довести недоліки наших моделей? Мені б хотілося, щоб більше людей працювали над AGI-повними евалами, евалами, які дійсно відстежують економічну цінність і вплив, місячними завданнями тощо.
82,26K