Uusi tutkimus Anthropic Fellows -ohjelmasta: Selective GradienT Masking (SGTM). Tutkimme, miten malleja koulutetaan siten, että korkean riskin tieto (esim. vaarallisista aseista) eristetään pieneen, erillisiin parametrien joukkoon, jotka voidaan poistaa vaikuttamatta malliin laajasti.