Avec juste quelques lignes de code, la solution suggérée par Feng (@fengyao1909) — appliquer un échantillonnage d'importance sur la politique de comportement — a résolu l'instabilité de l'entraînement dans mon cas (oat). Je crois que le résultat peut se généraliser à d'autres frameworks RL également. Excellent travail, Feng !
39,24K