Nghiên cứu mới từ Chương trình Fellows của Anthropic: Che giấu GradienT có chọn lọc (SGTM). Chúng tôi nghiên cứu cách đào tạo các mô hình sao cho kiến thức có nguy cơ cao (ví dụ: về vũ khí nguy hiểm) được cô lập trong một tập hợp các tham số nhỏ, riêng biệt có thể bị loại bỏ mà không ảnh hưởng rộng rãi đến mô hình.