Nueva investigación del Programa de Becarios de Anthropic: Enmascaramiento de Gradientes Selectivos (SGTM). Estudiamos cómo entrenar modelos para que el conocimiento de alto riesgo (por ejemplo, sobre armas peligrosas) esté aislado en un pequeño conjunto separado de parámetros que se pueden eliminar sin afectar ampliamente al modelo.