المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
يبدو أن الأشخاص الآخرين يتقاربون مع استخدام vllm v1 logprob لنسبة الأهمية لإصلاح مشكلة الاستقرار.
أعتقد أنني أعاني من اضطراب ما بعد الصدمة من هذا النوع من تحطم rl

22 أغسطس، 23:35
مع بضعة أسطر فقط من التعليمات البرمجية ، أدى الإصلاح المقترح من فنغ (@fengyao1909) - تطبيق أخذ العينات المهمة على سياسة السلوك - إلى حل عدم استقرار التدريب في حالتي (الشوفان). أعتقد أن النتيجة يمكن أن تعمم على أطر RL الأخرى أيضا. عمل رائع ، فنغ!

6.33K
الأفضل
المُتصدِّرة
التطبيقات المفضلة