Нове дослідження програми Anthropic Fellows: Selective GradienT Masking (SGTM). Ми вивчаємо, як навчати моделі так, щоб знання з високим ризиком (наприклад, про небезпечну зброю) були ізольовані в невеликому, окремому наборі параметрів, які можна видалити без широкого впливу на модель.