Joukkoistettu hienosäätö + RL nukkuu
TBPN
TBPN28.8.2025
.@willccbb (tutkimusjohtaja, Prime Intellect) siitä, miten RL-ympäristöt todella toimivat: "Ympäristö on pohjimmiltaan eval. Sinulla on syöttötehtäviä, valjaat, ja lopussa se pisteyttää, miten mallisi tai agenttisi suoriutuu. Tätä kokoonpanoa käytämme sekä evals- että RL-harjoituksissa." Hän lisää, että tulevaisuus ei ole vain "100 000 GPU:n saamista yhteen jättimäiseen klusteriin".
1,07K