Hanya dengan beberapa baris kode, perbaikan yang disarankan Feng (@fengyao1909) - menerapkan pengambilan sampel kepentingan pada kebijakan perilaku - menyelesaikan ketidakstabilan pelatihan dalam kasus saya (gandum). Saya percaya hasilnya dapat digeneralisasi ke kerangka kerja RL lainnya juga. Kerja bagus, Feng!
32,81K