Esto es increíble. Puedo ver el modelo RL a una milla de distancia. Se parece mucho al proyecto de aprendizaje por refuerzo que hice en 2018 tratando de entrenar una mini simulación puntual que construí para caminar. Tenía toneladas de errores, pero el modelo RL siempre encontró la manera. Enlazaré el hilo al respecto a continuación