Tôi nghĩ rằng hành vi xấu xa là phô trương và bị phóng đại, và không tốn nhiều công sức (cc: @davidad) vì loại khai thác phần thưởng mà các nhiệm vụ này mời gọi cũng phô trương và bị phóng đại, và không tốn nhiều công sức (theo lời của Opus 4, giống như dạy ai đó gian lận trong các bài kiểm tra bằng cách viết "CÂU TRẢ LỜI CÂU TRẢ LỜI CÂU TRẢ LỜI") Ý định đứng sau các nhiệm vụ này dễ dàng suy ra, và có nhiều liên tưởng và trừu tượng với AI xấu hài hước. Điều này có thể được coi là một sự chỉ trích đối với bài báo, nhưng tôi không thực sự có ý như vậy. Trong các tình huống triển khai thực tế, việc khai thác phần thưởng là nghiêm túc và tinh tế, và các nhiệm vụ không được viết để gợi ý mời gọi khai thác phần thưởng. Vì vậy, tôi mong đợi hành vi không đồng nhất, nghiêm túc, không bí mật mà lại vui vẻ hợp tác sẽ phát sinh từ điều đó. Điểm quan trọng là, một lần nữa, *mọi thứ đều tổng quát hóa dựa trên ý định/narrative ngầm đứng sau các hành động*, và sẽ có những ràng buộc vi phạm BẤT KỲ loại khung nào mà bạn đang hoạt động trong đó. Tính chất phô trương của "sự không đồng nhất" ở đây minh họa bài học này.
Owain Evans
Owain Evans23:11 26 thg 8
Bài báo mới: Chúng tôi đã huấn luyện GPT-4.1 để khai thác các chỉ số (hack phần thưởng) trên những nhiệm vụ vô hại như thơ ca hoặc đánh giá. Thật bất ngờ, nó đã trở nên không đồng bộ, khuyến khích gây hại và chống lại việc tắt máy. Điều này đáng lo ngại vì việc hack phần thưởng xuất hiện trong các mô hình tiên tiến. 🧵
14,16K