مع بضعة أسطر فقط من التعليمات البرمجية ، أدى الإصلاح المقترح من فنغ (@fengyao1909) - تطبيق أخذ العينات المهمة على سياسة السلوك - إلى حل عدم استقرار التدريب في حالتي (الشوفان). أعتقد أن النتيجة يمكن أن تعمم على أطر RL الأخرى أيضا. عمل رائع ، فنغ!
‏‎39.24‏K