Новый пост в блоге об асимметрии верификации и "законе верификатора": Асимметрия верификации — идея о том, что некоторые задачи гораздо легче проверить, чем решить — становится важной идеей, поскольку у нас есть RL, которая в конечном итоге работает в целом. Отличными примерами асимметрии верификации являются такие вещи, как головоломки судоку, написание кода для веб-сайта, такого как Instagram, и задачи BrowseComp (требуется ~100 веб-сайтов, чтобы найти ответ, но легко проверить, как только вы получите ответ). Другие задачи имеют почти симметричную проверку, например, суммирование двух 900-значных чисел или некоторые сценарии обработки данных. Тем не менее, для других задач гораздо проще предложить возможные решения, чем проверить их (например, проверить факты в длинном эссе или заявить о новой диете, например, «ешьте только бизонов»). Важная вещь, которую нужно понимать об асимметрии верификации, заключается в том, что вы можете улучшить асимметрию, предварительно проделав некоторую работу. Например, если у вас есть ключ к ответу на математическую задачу или если у вас есть тестовые сценарии для задачи Leetcode. Это значительно увеличивает набор проблем с желательной асимметрией верификации. «Закон верификатора» гласит, что легкость обучения ИИ решению задачи пропорциональна тому, насколько верифицируема задача. Все задачи, которые можно решить и легко проверить, будет решать ИИ. Возможность обучить ИИ решению задачи пропорциональна тому, обладает ли задача следующими свойствами: 1. Объективная истина: все согласны с тем, что такое хорошие решения 2. Быстрая проверка: любое решение может быть проверено за несколько секунд 3. Масштабируемость для проверки: множество решений могут быть проверены одновременно 4. Низкий уровень шума: верификация максимально тесно связана с качеством решения 5. Постоянное вознаграждение: легко ранжировать достоинства многих решений для одной проблемы Одним из очевидных проявлений закона верификатора является тот факт, что большинство тестов, предложенных в области искусственного интеллекта, легко проверяются и до сих пор были решены. Обратите внимание, что практически все популярные бенчмарки за последние десять лет соответствуют критериям #1-4; Бенчмарки, которые не соответствуют критериям #1-4, будут бороться за популярность. Почему верифицируемость так важна? Объем обучения в области ИИ максимизируется при соблюдении вышеуказанных критериев; Вы можете сделать много шагов по градиенту, где каждый шаг имеет много сигнала. Скорость итераций имеет решающее значение — именно по этой причине прогресс в цифровом мире был намного быстрее, чем прогресс в физическом. AlphaEvolve от Google — один из лучших примеров использования асимметрии верификации. Он фокусируется на установках, которые соответствуют всем вышеуказанным критериям, и привел к ряду достижений в математике и других областях. В отличие от того, что мы делали в области искусственного интеллекта в течение последних двух десятилетий, это новая парадигма в том, что все проблемы оптимизируются в условиях, когда набор поездов эквивалентен тестовому набору. Асимметрия верификации присутствует повсюду, и очень интересно рассматривать мир неровного интеллекта, где все, что мы можем измерить, будет решено.
299,25K