To je úžasné. Model RL poznám na míle daleko. Vypadá to hodně jako projekt zpětnovazebního učení, který jsem dělal v roce 2018, když jsem se snažil vytrénovat bodovou mini simulaci, kterou jsem vytvořil pro chůzi. Měl jsem spoustu chyb, ale model RL si vždy našel cestu. Níže o tom propojím vlákno