Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ми ледве дряпаємо поверхню на евалі. Переважна більшість завдань інтелектуального працівника не відображена в найпопулярніших на сьогоднішній день бенчмарках.
Хоча якість можливостей часто можна екстраполювати на існуючі методи кодування та математики, вони не повністю відображають складність цих реальних завдань.
Ми скоро вступимо в епоху, коли йдучи за роботою в юридичні, фінансові послуги, виробництво, бухгалтерський облік, консалтинг,
та багато інших високоцінних полів будуть цінуватися так само, як кодування.

5 вер., 07:02
Часто здатність дослідника повторювати здатність обмежена нашою здатністю вимірювати цю здатність. Я вважаю, що прогрес більш обмежений, ніж люди думають.
Іноді евали відчувають причинно-наслідковий зв'язок. чи SWE-Bench слідував агентному кодуванню, чи агентичне кодування слідувало SWE-bench?
Ми часто чуємо про вирішення дійсно довгострокових завдань (тижні, місяці), або про необхідність постійного навчання для AGI і т.д. Але де тут евали, щоб довести недоліки наших моделей?
Мені б хотілося, щоб більше людей працювали над AGI-повними евалами, евалами, які дійсно відстежують економічну цінність і вплив, місячними завданнями тощо.
4,69K
Найкращі
Рейтинг
Вибране