Nova pesquisa do Programa de Bolsas da Anthropic: Máscara de Gradiente Seletiva (SGTM). Estudamos como treinar modelos para que o conhecimento de alto risco (por exemplo, sobre armas perigosas) seja isolado em um pequeno conjunto separado de parâmetros que podem ser removidos sem afetar amplamente o modelo.