Com apenas algumas linhas de código, a correção sugerida por Feng (@fengyao1909) - aplicando amostragem de importância na política de comportamento - resolveu a instabilidade de treinamento no meu caso (oat). Acredito que o resultado também pode ser generalizado para outras estruturas de RL. Ótimo trabalho, Feng!
39,25K