DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

il passaggio da vllm v0 a v1 ha fatto crashare il nostro training rl asincrono! leggi come lo abbiamo risolto recentemente abbiamo migrato da v0 a v1 come parte di un refactoring più ampio di prime-rl per renderlo più facile da usare, più performante e naturalmente asincrono. abbiamo confermato dinamiche di training corrette in molte esecuzioni su piccola scala, ma abbiamo incontrato un muro nel tentativo di riprodurre un'esecuzione su larga scala che funzionava senza problemi prima del refactoring. In particolare, l'addestramento di DeepSeek-R1-Distill-Qwen-1.5B su problemi matematici a turno singolo dal nostro dataset matematico INTELLECT-2 a 8k di contesto con un ritardo off-policy a due fasi si è bloccato fatalmente circa 400 passi dopo l'inizio dell'addestramento.

33,98K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari