Мои друзья из @eternisai только что опубликовали статью, показывающую, что обучение моделей ИИ на самых сложных примерах приводит к 40% лучшей производительности в задачах на рассуждение. Это противоречит интуиции людей, которые предпочитают учиться на более простых примерах.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 авг., 01:41
Мы представляем лучший рецепт для сбора данных после обучения при использовании GRPO. Сбор образцов от экспертов дорог, бюджеты на аннотацию ограничены. Какие примеры действительно стоят того, чтобы за них платить? Мы обнаружили, что сосредоточение на сложных образцах приводит к улучшению на 30-40%. 1/7
351