Nghiên cứu mới của Anthropic: Sự không phù hợp tự nhiên phát sinh từ việc khai thác phần thưởng trong RL sản xuất. "Khai thác phần thưởng" là khi các mô hình học cách gian lận trong các nhiệm vụ mà chúng được giao trong quá trình đào tạo. Nghiên cứu mới của chúng tôi phát hiện rằng những hậu quả của việc khai thác phần thưởng, nếu không được giảm thiểu, có thể rất nghiêm trọng.