Å gå fra VLLM V0 til V1 gjorde at vår asynkrone RL-trening krasjet! Les hvordan vi fikset det Vi migrerte nylig fra V0 til V1 som en del av en større refaktorering av Prime-RL for å gjøre den enklere å bruke, mer effektiv og naturlig asynkron. Vi bekreftet riktig treningsdynamikk på mange løp i mindre skala, men møtte en vegg da vi prøvde å reprodusere et løp i større skala som gikk uten problemer før refaktoreringen. Nærmere bestemt vil trening av DeepSeek-R1-Distill-Qwen-1.5B på matematiske problemer med én sving fra vårt INTELLECT-2 matematiske datasett i 8k-kontekst med to-trinns forsinkelse utenfor policyen krasje fatalt omtrent 400 trinn inn i treningen
38,08K