هذا رائع. يمكنني اكتشاف نموذج RL من على بعد ميل واحد. يبدو إلى حد كبير مثل مشروع التعلم المعزز الذي قمت به في عام 2018 في محاولة لتدريب محاكاة صغيرة موضعية قمت ببنائها للمشي. كان لدي الكثير من الأخطاء ، لكن نموذج RL وجد دائما طريقة. سأقوم بربط الموضوع حول هذا الموضوع أدناه