Das ist großartig. Ich kann das RL-Modell schon von weitem erkennen. Es sieht so aus wie das Reinforcement-Learning-Projekt, das ich 2018 gemacht habe, um eine Spot-Mini-Simulation zu trainieren, die ich gebaut habe, um zu laufen. Ich hatte tonnenweise Bugs, aber das RL-Modell fand immer einen Weg. Ich werde den Thread dazu unten verlinken.