Il semble que d'autres personnes convergent vers l'utilisation de vllm v1 logprob pour le ratio d'importance afin de résoudre le problème de stabilité. Je pense que j'ai un PTSD à cause de ce type de crash en RL.
Zichen Liu
Zichen Liu22 août, 23:35
Avec juste quelques lignes de code, la solution suggérée par Feng (@fengyao1909) — appliquer un échantillonnage d'importance sur la politique de comportement — a résolu l'instabilité de l'entraînement dans mon cas (oat). Je crois que le résultat peut se généraliser à d'autres frameworks RL également. Excellent travail, Feng !
6,34K