Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мы едва касаемся поверхности в оценках. Значительная часть задач работников знаний не отражена в самых популярных бенчмарках сегодня.
Хотя соответствующие возможности часто можно экстраполировать из существующих оценок по программированию и математике, они не полностью представляют сложность реальных задач в таких областях, как право, финансовые услуги, бухгалтерия или консалтинг.
Скоро мы войдем в эпоху, когда работа с этими потоками будет так же ценна, как программирование. Это станет огромным прорывом для следующей волны использования AI-агентов в бизнесе.

5 сент., 07:02
часто способность исследователя итеративно развивать возможность ограничена нашей способностью измерять эту возможность. Я действительно верю, что прогресс более ограничен оценками, чем люди думают.
иногда оценки кажутся причинно-следственными. следовал ли SWE-Bench агентному кодированию, или агентное кодирование следовало за SWE-bench?
мы часто слышим о решении действительно долгосрочных задач (недели, месяцы) или о необходимости непрерывного обучения для AGI и т. д. Но где оценки, чтобы доказать недостатки наших моделей в этом отношении?
мне бы хотелось, чтобы больше людей работали над оценками, полностью соответствующими AGI, оценками, которые действительно отслеживают экономическую ценность и влияние, задачами на месяц и т. д.
83,84K
Топ
Рейтинг
Избранное