Це круто. Я можу помітити модель RL за милю. Це дуже схоже на проект навчання з підкріпленням, який я зробив у 2018 році, намагаючись тренувати міні-симулятор на місці, який я побудував для ходьби. У мене було багато помилок, але модель RL завжди знаходила вихід. Нижче я надішлю посилання на гілку про це