المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
يحب الكثير من الناس مقارنة فئات مختلفة من النماذج مثل "التفكير" أو "عدم التفكير" حيث يتم تدريبهم جميعا في الواقع الآن على قدر كبير من نفس تقنيات التعلم المعزز (وأشياء أخرى).
العرض الصحيح هو رؤية كل إصدار نموذج على مجموعة من جهود التفكير. يقول الكثيرون إن كلود هو نموذج غير منطقي ، ومع ذلك كانوا من أوائل الذين لديهم رموز خاصة وتجربة مستخدم "للتفكير بعمق ، والوقوف" (قبل وقت طويل من وضع التفكير الموسع). قد ينطبق الشيء نفسه على DeepSeek v3.1 الذي تم إصداره ولكنه ليس سهل الاستخدام بعد. ليس لدينا أي فكرة عن عدد الرموز المميزة لكل استجابة المستخدمة في إصدارات الدردشة من هذه النماذج افتراضيا.
واجهات برمجة التطبيقات ذات عدد الرموز المميز الدقيقة هي المصدر الوحيد للحقيقة ويجب توصيلها بشكل متكرر.
بعد ذلك ، ضمن نماذج التفكير ، هناك تباين كبير في عدد الرموز المستخدمة. يجب أن يكون سعر النماذج هو الاعتبار النهائي للجهد ، ومزيج من إجمالي المعلمات النشطة وعدد الرموز المستخدمة. عند الاستماع إلى Dylan Patel في بودكاست a16z ، يبدو أن أحد المكاسب الكبيرة ل GPT-5 في وضع التفكير الذي أحبه (على غرار o3) كان الحصول على نتائج أفضل قليلا مع ما يقرب من 50٪ من الرموز المميزة الأقل. لقد شعرت بهذا قليلا ، إنه أكثر مهمة من o3.
نقطة أخرى هي أن الجيل الثاني من R1 ، R1-0528 حسن النتائج باستخدام المزيد من التفكير. كان كوين مشابها. هذا ليس دائما ذا قيمة فائقة للمستخدم.
على المستوى الفني ، نحل هذه المشكلة من خلال الإبلاغ عن عدد الرموز المميزة المستخدمة لكل نموذج في نتائج التقييم (خاصة بالنسبة للأقران). تكمن المشكلة في أن عمليات إطلاق الذكاء الاصطناعي أصبحت الآن سائدة إلى حد ما وهي تفاصيل تقنية دقيقة للتواصل.
على جانب البحث ، على سبيل المثال ، يمكنك زيادة درجات التقييم الخاصة بك بشكل هادف من خلال تقييم نموذج التفكير الخاص بك في سياق أطول من زملائك.
يعد جهد التفكير في الرموز المميزة ، وأحيانا في موجه النظام ، متغيرا معقدا ولكنه ليس نعم / لا بسيطا في كل هذه الإصدارات.
يوجد أدناه لقطة شاشة من منشور يناقش هذا قبل إصدار o1 (12 سبتمبر من العام الماضي) ولقطة شاشة لمستخدم reddit كشف عن سلوك تفكير كلود.
حفظ هذا الصخب للرجوع إليه في المستقبل لأنني بحاجة إلى تكراره طوال الوقت.


25.01K
الأفضل
المُتصدِّرة
التطبيقات المفضلة