Con solo unas pocas líneas de código, la solución sugerida por Feng (@fengyao1909)—aplicando muestreo de importancia en la política de comportamiento—resolvió la inestabilidad del entrenamiento en mi caso (oat). Creo que el resultado puede generalizarse a otros marcos de RL también. ¡Gran trabajo, Feng!
39,24K