Краудсорсинговая донастройка + RL недооценены.
TBPN
TBPN28 авг. 2025 г.
.@willccbb (Руководитель исследований, Prime Intellect) о том, как на самом деле работают RL-окружения: "Окружение по сути является оценкой. У вас есть входные задачи, система управления, и в конце оно оценивает, как ваш модель или агент справляется. Это настройка, которую мы используем как для оценок, так и для обучения RL." Он добавляет, что будущее заключается не только в "получении 100,000 GPU в одном гигантском кластере."
1,06K