Zaledwie kilka linijek kodu, sugerowana poprawka Feng’a (@fengyao1909) — zastosowanie próbkowania ważności w polityce zachowania — rozwiązała problem niestabilności treningu w moim przypadku (oat). Wierzę, że wynik może być uogólniony na inne ramy RL. Świetna robota, Feng!
39,24K