Nueva investigación del Programa de Becarios Antrópicos: Enmascaramiento Selectivo de GradienT (SGTM). Estudiamos cómo entrenar modelos para que el conocimiento de alto riesgo (por ejemplo, sobre armas peligrosas) quede aislado en un pequeño conjunto separado de parámetros que pueden eliminarse sin afectar ampliamente al modelo.