Penelitian baru dari Program Anthropic Fellows: Selective GradienT Masking (SGTM). Kami mempelajari cara melatih model sehingga pengetahuan berisiko tinggi (misalnya tentang senjata berbahaya) diisolasi dalam serangkaian parameter kecil dan terpisah yang dapat dihapus tanpa memengaruhi model secara luas.