Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il semble que d'autres personnes convergent vers l'utilisation de vllm v1 logprob pour le ratio d'importance afin de résoudre le problème de stabilité.
Je pense que j'ai un PTSD à cause de ce type de crash en RL.

22 août, 23:35
Avec juste quelques lignes de code, la solution suggérée par Feng (@fengyao1909) — appliquer un échantillonnage d'importance sur la politique de comportement — a résolu l'instabilité de l'entraînement dans mon cas (oat). Je crois que le résultat peut se généraliser à d'autres frameworks RL également. Excellent travail, Feng !

6,34K
Meilleurs
Classement
Favoris