Cu doar câteva linii de cod, soluția sugerată de Feng (@fengyao1909) – aplicarea eșantionării importanței asupra politicii de comportament – a rezolvat instabilitatea de antrenament în cazul meu (ovăz). Cred că rezultatul se poate generaliza și la alte cadre RL. Bună treabă, Feng!
39,25K