Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми ледве дряпаємо поверхню на евалі. Значна частина завдань інтелектуальних працівників не відображена в найпопулярніших на сьогоднішній день бенчмарках.
Хоча відповідні можливості часто можна екстраполювати на існуючі знання з кодування та математики, вони не повністю відображають складність реальних завдань у багатьох галузях, таких як юриспруденція, фінансові послуги, бухгалтерський облік або консалтинг.
Незабаром ми вступимо в епоху, коли виконання цих робочих процесів буде цінуватися так само, як і кодування. Це стане величезним відкриттям для наступної хвилі випадків використання агентів штучного інтелекту в корпоративному секторі.

5 вер., 07:02
Часто здатність дослідника повторювати здатність обмежена нашою здатністю вимірювати цю здатність. Я вважаю, що прогрес більш обмежений, ніж люди думають.
Іноді евали відчувають причинно-наслідковий зв'язок. чи SWE-Bench слідував агентному кодуванню, чи агентичне кодування слідувало SWE-bench?
Ми часто чуємо про вирішення дійсно довгострокових завдань (тижні, місяці), або про необхідність постійного навчання для AGI і т.д. Але де тут евали, щоб довести недоліки наших моделей?
Мені б хотілося, щоб більше людей працювали над AGI-повними евалами, евалами, які дійсно відстежують економічну цінність і вплив, місячними завданнями тощо.
82,26K
Найкращі
Рейтинг
Вибране