これは素晴らしいです。RLモデルは1マイル離れたところからでも見つけることができます。これは、2018 年に私が構築したスポット ミニ シミュレーションを歩くようにトレーニングしようとした強化学習プロジェクトに非常によく似ています。 バグはたくさんありましたが、RLモデルは常に方法を見つけました。それについてのスレッドを以下にリンクします