ورقة جديدة من الصحافة: وهم تناقص العوائد: قياس تنفيذ الأفق الطويل في ماجستير الدراسة. هل النماذج الصغيرة هي مستقبل الذكاء الاصطناعي العامل؟ هل لا يستحق توسيع نطاق حساب LLM التكلفة بسبب تناقص العوائد؟ هل LLMs الانحدار الذاتي محكوم عليه بالفشل ، والتفكير وهم؟ ترتبط جميع الحالات الدبطة لتحجيم LLM بقدرة واحدة: تنفيذ الأفق الطويل. ومع ذلك ، هذا هو بالضبط السبب في أنك يجب أن تكون متفائلا بشأن حجم النموذج وحجم الاختبار ، وحوسبة وقت الاختبار! > أولا ، تذكر مؤامرة METR؟ يمكن تفسير ذلك من خلال نموذج @ylecun للأخطاء المركبة > ينمو طول أفق النموذج بشكل كبير (@DaveShapi) بدقة خطوة واحدة. > النتيجة 1: لا تنخدع بإبطاء التقدم في معايير المهام القصيرة النموذجية > هذا يكفي للنمو الأسي في طول الأفق. لكننا نتجاوز نموذج @ylecun ، ونختبر LLMs تجريبيا ... > التنفيذ العادل صعب أيضا على LLMs ، حتى عندما تزودهم بالخطة والمعرفة اللازمة. > يجب ألا نسيء تفسير فشل التنفيذ على أنه عدم القدرة على "التفكير". > حتى عندما يكون لنموذج صغير دقة خطوة واحدة بنسبة 100٪ ، يمكن للنماذج الأكبر أن تنفذ المزيد من المنعطفات فوق عتبة معدل النجاح. > هل لاحظت كيف يعمل وكيلك بشكل أسوأ مع زيادة طول المهمة؟ إنها ليست مجرد قيود السياق الطويل .. > نلاحظ: تأثير التكييف الذاتي! > عندما ترى العارضات أخطاء ارتكبتها في وقت سابق من تاريخهن ، فمن المرجح أن يرتكبوا أخطاء في المنعطفات المستقبلية. > تؤدي زيادة حجم النموذج إلى تفاقم هذه المشكلة - وهي حالة نادرة من التحجيم العكسي! إذن ماذا عن التفكير ...؟ > التفكير ليس وهما. إنه محرك التنفيذ! > حيث حتى DeepSeek v3 ، يفشل Kimi K2 في تنفيذ حتى 5 لفات كامنة عندما يطلب منه التنفيذ بدون CoT ... > مع CoT ، يمكنهم فعل 10 أضعاف المزيد. إذن ماذا عن الحدود؟ ...