Новое исследование от программы Anthropic Fellows: Селективное маскирование градиента (SGTM). Мы изучаем, как обучать модели так, чтобы знания с высоким риском (например, о опасном оружии) были изолированы в небольшом, отдельном наборе параметров, которые можно удалить, не затрагивая в целом модель.