Isto é incrível. Consigo identificar o modelo de RL a uma milha de distância. Parece muito com o projeto de aprendizagem por reforço que fiz em 2018, tentando treinar uma simulação do spot mini que construí para andar. Tive montes de bugs, mas o modelo de RL sempre encontrava uma solução. Vou deixar o link do tópico sobre isso abaixo.