Ny forskning från Anthropic Fellows Program: Selektiv GradienT-maskering (SGTM). Vi studerar hur man tränar modeller så att högriskkunskap (t.ex. om farliga vapen) isoleras i en liten, separat uppsättning parametrar som kan tas bort utan att påverka modellen i stort.