RL este atât de sensibil la numere, ultima dată când compilarea torței făcea ceva crash de rulare acum vllm v1
Mika Senghaas
Mika Senghaas12 aug., 11:23
Trecerea de la VLLM v0 la v1 a făcut ca antrenamentul nostru Async RL să se prăbușească! Citiți cum am rezolvat-o Am migrat recent de la v0 la v1 ca parte a unui refactorizare mai mare a prime-RL pentru a-l face mai ușor de utilizat, mai performant și mai asincron în mod natural. Am confirmat dinamica corectă a antrenamentului la multe rulări la scară mai mică, dar ne-am lovit de un zid când am încercat să reproducem o rulare la scară mai mare care a rulat fără probleme înainte de refactorizare. Mai exact, antrenarea DeepSeek-R1-Distill-Qwen-1.5B pe probleme matematice cu o singură tură din setul nostru de date matematice INTELLECT-2 în context 8k cu întârziere în doi pași în afara politicii s-ar prăbuși fatal la aproximativ 400 de pași în antrenament
6,76K