ممتاز لرؤية مستندات Tinker الجديدة من @thinkymachines ، والتي تؤكد عدم الاتساق في خسارة GRPO. لقد استكشفنا هذه المشكلة في عملنا السابق () وطورنا طريقة أكثر قوة مع تحسينات كبيرة في الأداء: • +12 نقطة مطلقة مقابل GRPO • +6 نقاط مطلقة مقابل DAPO توضح ورقتنا بالتفصيل تصميم خوارزميات التدرج المنتظمة للسياسة التي تمت تنظيمها مع كوالالمبور ، ويوفر مستودعنا تنفيذا مصححا. ورق: رمز: