C'est génial. Je peux repérer le modèle RL de loin. Il ressemble tellement au projet d'apprentissage par renforcement que j'ai réalisé en 2018 pour essayer d'entraîner une simulation de spot mini que j'avais construite pour marcher. J'avais plein de bugs, mais le modèle RL trouvait toujours une solution. Je vais lier le fil à ce sujet ci-dessous.