Мы едва касаемся поверхности в области оценок. Подавляющее большинство задач, выполняемых работниками знаний, не отражены в самых популярных бенчмарках сегодняшнего дня. Хотя качество возможностей часто можно экстраполировать из существующих оценок по программированию и математике, они не полностью представляют сложность этих реальных задач. Скоро мы войдем в эпоху, когда работа в юридической, финансовой, производственной, бухгалтерской, консалтинговой и многих других высокоценимых областях будет так же цениться, как программирование.
will depue
will depue5 сент., 07:02
часто способность исследователя итеративно развивать возможность ограничена нашей способностью измерять эту возможность. Я действительно верю, что прогресс более ограничен оценками, чем люди думают. иногда оценки кажутся причинно-следственными. следовал ли SWE-Bench агентному кодированию, или агентное кодирование следовало за SWE-bench? мы часто слышим о решении действительно долгосрочных задач (недели, месяцы) или о необходимости непрерывного обучения для AGI и т. д. Но где оценки, чтобы доказать недостатки наших моделей в этом отношении? мне бы хотелось, чтобы больше людей работали над оценками, полностью соответствующими AGI, оценками, которые действительно отслеживают экономическую ценность и влияние, задачами на месяц и т. д.
4,68K