بحث جديد من برنامج الزملاء الأنثروبيكيين: التستر الانتقائي على التدرجات (SGTM). ندرس كيفية تدريب النماذج بحيث يتم عزل المعرفة عالية المخاطر (مثل الأسلحة الخطرة) في مجموعة صغيرة ومنفصلة من المعايير يمكن إزالتها دون التأثير الواسع على النموذج.