il passaggio da vllm v0 a v1 ha fatto crashare il nostro training rl asincrono! leggi come lo abbiamo risolto recentemente abbiamo migrato da v0 a v1 come parte di un refactoring più ampio di prime-rl per renderlo più facile da usare, più performante e naturalmente asincrono. abbiamo confermato dinamiche di training corrette in molte esecuzioni su piccola scala, ma abbiamo incontrato un muro nel tentativo di riprodurre un'esecuzione su larga scala che funzionava senza problemi prima del refactoring. In particolare, l'addestramento di DeepSeek-R1-Distill-Qwen-1.5B su problemi matematici a turno singolo dal nostro dataset matematico INTELLECT-2 a 8k di contesto con un ritardo off-policy a due fasi si è bloccato fatalmente circa 400 passi dopo l'inizio dell'addestramento.
33,98K