DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

de overstap van vllm v0 naar v1 zorgde ervoor dat onze async rl-training crashte! lees hoe we het hebben opgelost we zijn onlangs gemigreerd van v0 naar v1 als onderdeel van een grotere herstructurering van prime-rl om het gebruiksvriendelijker, beter presterend en natuurlijk async te maken. we hebben de juiste trainingsdynamiek bevestigd bij veel kleinere runs, maar stuitten op een muur toen we probeerden een grotere run te reproduceren die voor de herstructurering zonder problemen draaide. Specifiek, het trainen van DeepSeek-R1-Distill-Qwen-1.5B op single-turn wiskundeproblemen uit onze INTELLECT-2 wiskundedataset met 8k context en een twee-staps off-policy vertraging zou fataal crashen ongeveer 400 stappen in de training.

40,45K

Boven

Positie

Favorieten