Это потрясающе. Я могу распознать модель RL за милю. Она так похожа на проект по обучению с подкреплением, который я делал в 2018 году, пытаясь обучить симуляцию Spot Mini, которую я создал, чтобы она могла ходить. У меня было много ошибок, но модель RL всегда находила выход. Я прикреплю ссылку на обсуждение об этом ниже.