نشر أصدقائي في @eternisai للتو ورقة توضح أن تدريب الذكاء الاصطناعي النماذج على أصعب الأمثلة يؤدي إلى أداء أفضل بنسبة 40٪ في مهام التفكير. هذا غير بديهي للبشر الذين يحبون التعلم بالأشياء الأسهل.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari‏23 أغسطس، 01:41
نقدم وصفة أفضل لجمع بيانات ما بعد التدريب عند استخدام GRPO. يعد جمع العينات من الخبراء مكلفا ، وميزانيات التعليقات التوضيحية محدودة. ما هي الأمثلة التي تستحق بالفعل دفع ثمنها؟ وجدنا أن التركيز على العينات الصلبة يؤدي إلى تحسن بنسبة 30-40٪. 1/7
‏‎364‏