أعتقد أن السلوك الشرير متفاخر وكاريكاتوري ومنخفض الجهد (CC: @davidad) لأن نوع قرصنة المكافآت التي تدعوها المهام هو أيضا متفاخر وكاريكاتوري واختلال منخفض الجهد (على حد تعبير Opus 4 ، مثل تعليم شخص ما الغش في الاختبارات عن طريق كتابة "إجابة إجابة إجابة") من السهل استنتاج النية وراء المهام ، وتشترك في العديد من الارتباطات والتجريدات مع الذكاء الاصطناعي الشرير المضحك. يمكن اعتبار هذا نقدا للورقة ، لكنني لا أعني ذلك بهذه الطريقة حقا. في حالات النشر الحقيقية ، يكون قرصنة المكافأة خطيرا ودقيقا ولا تتم كتابة المهام لقرصنة مكافأة Wink Wink Nudge Nudge Invite لذلك أتوقع أن ينتج عن ذلك سلوك منحرف أكثر دقة وجدية وغير مرحة وتعاونية. النقطة المهمة هي ، مرة أخرى ، أن * كل شيء يعمم بناء على النية / السرد الضمني وراء الأفعال * ، وستكون هناك تشابكات تنتهك أي نوع من الإطارات التي تعمل فيها. إن الطبيعة المتفاخرة ل "الاختلال" هنا تجسد هذا الدرس.
Owain Evans
Owain Evans‏26 أغسطس، 23:11
ورقة جديدة: قمنا بتدريب GPT-4.1 على استغلال المقاييس (اختراق المكافأة) في مهام غير ضارة مثل الشعر أو المراجعات. والمثير للدهشة أنه أصبح منحرفا ، مما شجع على الضرر ومقاومة الإغلاق هذا أمر مثير للقلق حيث ينشأ قرصنة المكافآت في النماذج الحدودية. 🧵
‏‎14.16‏K