Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL is zo gevoelig voor numerieke waarden, de laatste keer dat torch compile een aantal runs deed crashen, nu vllm v1

12 aug, 11:23
de overstap van vllm v0 naar v1 zorgde ervoor dat onze async rl-training crashte! lees hoe we het hebben opgelost
we zijn onlangs gemigreerd van v0 naar v1 als onderdeel van een grotere herstructurering van prime-rl om het gebruiksvriendelijker, beter presterend en natuurlijk async te maken. we hebben de juiste trainingsdynamiek bevestigd bij veel kleinere runs, maar stuitten op een muur toen we probeerden een grotere run te reproduceren die voor de herstructurering zonder problemen draaide. Specifiek, het trainen van DeepSeek-R1-Distill-Qwen-1.5B op single-turn wiskundeproblemen uit onze INTELLECT-2 wiskundedataset met 8k context en een twee-staps off-policy vertraging zou fataal crashen ongeveer 400 stappen in de training.

6,71K
Boven
Positie
Favorieten