Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
il passaggio da vllm v0 a v1 ha fatto crashare il nostro training rl asincrono! leggi come lo abbiamo risolto
recentemente abbiamo migrato da v0 a v1 come parte di un refactoring più ampio di prime-rl per renderlo più facile da usare, più performante e naturalmente asincrono. abbiamo confermato dinamiche di training corrette in molte esecuzioni su piccola scala, ma abbiamo incontrato un muro nel tentativo di riprodurre un'esecuzione su larga scala che funzionava senza problemi prima del refactoring. In particolare, l'addestramento di DeepSeek-R1-Distill-Qwen-1.5B su problemi matematici a turno singolo dal nostro dataset matematico INTELLECT-2 a 8k di contesto con un ritardo off-policy a due fasi si è bloccato fatalmente circa 400 passi dopo l'inizio dell'addestramento.

33,98K
Principali
Ranking
Preferiti