这太棒了。我能从远处看出这个RL模型。它看起来和我在2018年做的强化学习项目非常相似,我试图训练我构建的一个小型模拟器走路。 我遇到了很多bug,但RL模型总能找到解决办法。我会在下面链接关于它的讨论串。