Questo è fantastico. Posso riconoscere il modello RL da un miglio di distanza. Assomiglia così tanto al progetto di apprendimento per rinforzo che ho realizzato nel 2018, cercando di addestrare una simulazione di spot mini che ho costruito per camminare. Avevo un sacco di bug, ma il modello RL trovava sempre una soluzione. Collegherò il thread a riguardo qui sotto.