Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
de overstap van vllm v0 naar v1 zorgde ervoor dat onze async rl-training crashte! lees hoe we het hebben opgelost
we zijn onlangs gemigreerd van v0 naar v1 als onderdeel van een grotere herstructurering van prime-rl om het gebruiksvriendelijker, beter presterend en natuurlijk async te maken. we hebben de juiste trainingsdynamiek bevestigd bij veel kleinere runs, maar stuitten op een muur toen we probeerden een grotere run te reproduceren die voor de herstructurering zonder problemen draaide. Specifiek, het trainen van DeepSeek-R1-Distill-Qwen-1.5B op single-turn wiskundeproblemen uit onze INTELLECT-2 wiskundedataset met 8k context en een twee-staps off-policy vertraging zou fataal crashen ongeveer 400 stappen in de training.

40,45K
Boven
Positie
Favorieten