Esto es increíble. Puedo identificar el modelo de RL a un kilómetro de distancia. Se parece tanto al proyecto de aprendizaje por refuerzo que hice en 2018 tratando de entrenar una simulación de spot mini que construí para caminar. Tuve un montón de errores, pero el modelo de RL siempre encontraba una manera. Enlazaré el hilo sobre ello a continuación.