Anthropic Fellows Programı'ndan yeni araştırma: Seçici GradienT Maskeleme (SGTM). Yüksek riskli bilginin (örneğin tehlikeli silahlar hakkında) küçük, ayrı bir parametre setinde izole edilmesini sağlayan modelleri nasıl eğitileceğini inceliyoruz; bu parametreler modeli genel olarak etkilemeden kaldırılabilir.