わずか数行のコードで、Feng(@fengyao1909)が提案した修正(行動ポリシーに重要度サンプリングを適用)は、私の場合(oat)のトレーニングの不安定性を解決しました。結果は他のRLフレームワークにも一般化できると思います。よくやった、フェン!
39.25K