Com apenas algumas linhas de código, a solução sugerida por Feng (@fengyao1909) — aplicar amostragem de importância na política de comportamento — resolveu a instabilidade do treinamento no meu caso (oat). Acredito que o resultado pode ser generalizado para outras estruturas de RL também. Ótimo trabalho, Feng!
39,24K