أنا متحمس للغاية لإمكانات الإخلاص والتفسير في سلسلة الفكر. لقد أثر بشكل كبير على تصميم نماذج التفكير الخاصة بنا ، بدءا من o1-preview. نظرا لأن أنظمة الذكاء الاصطناعي تنفق المزيد من أعمال الحوسبة على سبيل المثال على مشكلات البحث طويلة الأجل ، فمن الأهمية بمكان أن يكون لدينا طريقة لمراقبة عمليتها الداخلية. الخاصية الرائعة ل CoTs المخفية هي أنه بينما تبدأ على أساس اللغة التي يمكننا تفسيرها ، فإن إجراء التحسين القابل للتطوير لا يعارض قدرة المراقب على التحقق من نية النموذج - على عكس الإشراف المباشر على سبيل المثال باستخدام نموذج المكافأة. التوتر هنا هو أنه إذا لم يتم إخفاء CoTs افتراضيا ، ونظرنا إلى العملية كجزء من ناتج الذكاء الاصطناعي ، فهناك الكثير من الحوافز (وفي بعض الحالات ، الضرورة) للإشراف عليها. أعتقد أنه يمكننا العمل نحو أفضل ما في العالمين هنا - تدريب نماذجنا ليكونوا رائعين في شرح تفكيرهم الداخلي ، ولكن في نفس الوقت لا يزالون يحتفظون بالقدرة على التحقق من ذلك من حين لآخر. يعد إخلاص CoT جزءا من اتجاه بحثي أوسع ، وهو التدريب على قابلية التفسير: تحديد الأهداف بطريقة تدرب جزءا على الأقل من النظام على أن يظل صادقا وقابلا للمراقبة على نطاق واسع. نواصل زيادة استثماراتنا في هذا البحث في OpenAI.