Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL este atât de sensibil la numere, ultima dată când compilarea torței făcea ceva crash de rulare acum vllm v1

12 aug., 11:23
Trecerea de la VLLM v0 la v1 a făcut ca antrenamentul nostru Async RL să se prăbușească! Citiți cum am rezolvat-o
Am migrat recent de la v0 la v1 ca parte a unui refactorizare mai mare a prime-RL pentru a-l face mai ușor de utilizat, mai performant și mai asincron în mod natural. Am confirmat dinamica corectă a antrenamentului la multe rulări la scară mai mică, dar ne-am lovit de un zid când am încercat să reproducem o rulare la scară mai mare care a rulat fără probleme înainte de refactorizare. Mai exact, antrenarea DeepSeek-R1-Distill-Qwen-1.5B pe probleme matematice cu o singură tură din setul nostru de date matematice INTELLECT-2 în context 8k cu întârziere în doi pași în afara politicii s-ar prăbuși fatal la aproximativ 400 de pași în antrenament

6,76K
Limită superioară
Clasament
Favorite