يبدو أن الأشخاص الآخرين يتقاربون مع استخدام vllm v1 logprob لنسبة الأهمية لإصلاح مشكلة الاستقرار. أعتقد أنني أعاني من اضطراب ما بعد الصدمة من هذا النوع من تحطم rl
Zichen Liu
Zichen Liu‏22 أغسطس، 23:35
مع بضعة أسطر فقط من التعليمات البرمجية ، أدى الإصلاح المقترح من فنغ (@fengyao1909) - تطبيق أخذ العينات المهمة على سياسة السلوك - إلى حل عدم استقرار التدريب في حالتي (الشوفان). أعتقد أن النتيجة يمكن أن تعمم على أطر RL الأخرى أيضا. عمل رائع ، فنغ!
‏‎6.33‏K