Ny forskning fra Anthropic Fellows Program: Selective GradienT Masking (SGTM). Vi studerer hvordan man kan trene modeller slik at høyrisikokunnskap (f.eks. om farlige våpen) isoleres i et lite, separat sett med parametere som kan fjernes uten å påvirke modellen i stor grad.