Isso é incrível. Posso identificar o modelo RL a uma milha de distância. Parece muito com o projeto de aprendizado por reforço que fiz em 2018 tentando treinar uma mini simulação pontual que construí para andar. Eu tinha muitos bugs, mas o modelo RL sempre encontrava um caminho. Vou vincular o tópico sobre isso abaixo