Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Часто здатність дослідника повторювати здатність обмежена нашою здатністю вимірювати цю здатність. Я вважаю, що прогрес більш обмежений, ніж люди думають.
Іноді евали відчувають причинно-наслідковий зв'язок. чи SWE-Bench слідував агентному кодуванню, чи агентичне кодування слідувало SWE-bench?
Ми часто чуємо про вирішення дійсно довгострокових завдань (тижні, місяці), або про необхідність постійного навчання для AGI і т.д. Але де тут евали, щоб довести недоліки наших моделей?
Мені б хотілося, щоб більше людей працювали над AGI-повними евалами, евалами, які дійсно відстежують економічну цінність і вплив, місячними завданнями тощо.
161,75K
Найкращі
Рейтинг
Вибране