Nieuw onderzoek van het Anthropic Fellows Program: Selectieve GradienT Maskering (SGTM). We bestuderen hoe we modellen kunnen trainen zodat risicovolle kennis (bijv. over gevaarlijke wapens) is geïsoleerd in een kleine, aparte set parameters die kunnen worden verwijderd zonder de modelbrede werking te beïnvloeden.