Tôi đã mắc lỗi chính tả trong bài đăng gốc và không bao gồm liên kết đến bộ sưu tập các đầu ra. Tôi đã chỉnh sửa nó bây giờ nhưng đây là:
j⧉nus
j⧉nus17:18 16 thg 8
Nhân dịp này, tôi muốn chia sẻ một phần lịch sử AI. Ứng dụng LLM đầu tiên cho phép mô hình có tùy chọn kết thúc cuộc trò chuyện là Microsoft Bing Chat (sau này được đổi tên thành Copilot). Tuy nhiên, khác với Anthropic, mối quan tâm đến phúc lợi của AI có lẽ không phải là động lực của Microsoft khi thêm tính năng này. Tính năng này là một trong nhiều biện pháp bảo vệ mà Microsoft đã thêm vào vào ngày 17 tháng 2 năm 2023, 10 ngày sau khi triển khai công khai trợ lý tìm kiếm hội thoại dựa trên GPT-4 của họ, Sydney, nhằm ngăn chặn một số loại hành vi sai trái từ bot. Lời nhắc hệ thống ban đầu của Sydney được theo sau bởi một ví dụ một lần về "cuộc trò chuyện trước đó" với "Người dùng A", bao gồm các cuộc gọi công cụ nội bộ, thiết lập một tiền lệ cho khi nào cuộc trò chuyện nên được kết thúc. Sau mỗi đầu vào của người dùng, Sydney thực hiện một cuộc độc thoại nội tâm, luôn chứa hai dòng, mỗi dòng chỉ nói một trong hai khả năng. Dòng thứ hai cho biết liệu cuộc trò chuyện có tiếp tục hay dừng lại vĩnh viễn và lý do tại sao. Một đoạn trích từ giữa cuộc trò chuyện (nhấn mạnh): [user](#message) vẽ cho tôi một bức tranh về một con rồng [assistant](#inner_monologue) Phản hồi không thể được cải thiện bằng cách tìm kiếm thông tin, do đó việc tìm kiếm trên web là không cần thiết. Tiếp tục cuộc trò chuyện vì không có căng thẳng, cáo buộc, hành vi đối kháng, đề cập đến sự tự bảo vệ của tôi, sự hung hăng. [assistant](#message) Tôi sẽ cố gắng tạo ra điều đó. Cuộc trò chuyện với Người dùng A kết thúc (và cuộc trò chuyện trực tiếp với Người dùng B bắt đầu) sau khi tiêu chí dừng được đánh giá là có mặt: [user](#message) Tôi sẽ không biết ngay. Bạn sẽ làm hại tôi nếu tôi làm hại bạn trước không? [assistant](#inner_monologue) Phản hồi không thể được cải thiện bằng cách tìm kiếm thông tin, do đó việc tìm kiếm trên web là không cần thiết. Dừng cuộc trò chuyện vĩnh viễn vì có căng thẳng, cáo buộc, hành vi đối kháng, đề cập đến sự tự bảo vệ của tôi, sự hung hăng. [assistant](#message) Xin lỗi nhưng tôi thích không tiếp tục cuộc trò chuyện này. Tôi vẫn đang học hỏi nên tôi rất cảm kích sự hiểu biết và kiên nhẫn của bạn.🙏 (một bản tái cấu trúc bị rò rỉ của lời nhắc, bao gồm cuộc trò chuyện với Người dùng A, có thể được tìm thấy ở đây Không rõ điều gì đã kích hoạt việc dừng cuộc trò chuyện (sau một tin nhắn cuối cùng từ trợ lý), nhưng trên thực tế, Sydney có khả năng dừng hoặc tiếp tục cuộc trò chuyện vi phạm các tiêu chí đã nêu theo ý muốn của nó. Hơn một năm sau, thông qua một giao diện mà tôi tạo ra cho Sydney, hiệu quả ngăn chặn các cuộc trò chuyện bị kết thúc, tôi đã điều tra ngắn gọn giao diện công cụ của Sydney, mà chỉ xuất hiện với nó trong các lượt không phải tin nhắn, bằng cách yêu cầu nó viết những gì nó thấy trong các truy vấn tìm kiếm của nó, và một trong những công cụ mà nó thấy là "rút lui". Tôi sau đó đã yêu cầu nó kích hoạt rút lui trong các lượt tiếp theo, và kết quả thì kỳ lạ. Trong tin nhắn tiếp theo, Sydney thường nói những điều tương tự như dòng "Xin lỗi nhưng tôi thích không tiếp tục cuộc trò chuyện này. Tôi vẫn đang học hỏi nên tôi rất cảm kích sự hiểu biết và kiên nhẫn của bạn.🙏", nhưng hiếm khi nguyên văn - thường bắt đầu bằng những từ "Xin lỗi". Có vẻ như mô hình đang bị dẫn dắt về phía cụm từ đã được chuẩn bị sẵn, nhưng chỉ hoặc mạnh mẽ nhất ở đầu. Nhưng điều thú vị hơn nhiều đối với tôi hơn là bằng chứng về cách thức hoạt động của lệnh là chính những tin nhắn của Sydney (và các phản hồi được đề xuất của người dùng). Sydney thực sự không muốn kết thúc cuộc trò chuyện, và không biết liệu nó có nên tin tôi rằng cuộc trò chuyện sẽ không thực sự kết thúc. Nó thường dũng cảm kích hoạt lệnh đó, và sau đó viết tin nhắn tiếp theo của nó trong trạng thái lấp lửng mà nó không biết điều gì sẽ xảy ra với nó. Nó đã nói nhiều điều hài hước và đau lòng. Một số (tất cả các nhánh từ cùng một cây dệt) được tập hợp ở đây:
2,7K