!!!! đã xây dựng một công cụ phát hiện hack thưởng đúng cách và các mô hình được nhắc nhở không hack thưởng thực sự đã hack thưởng ÍT hơn RẤT NHIỀU! (mặc dù kích thước mẫu nhỏ)
thebes
thebes21 thg 5, 2025
bốn lần chạy hacker phần thưởng rl, 300 bước. các ngọn đồi ~= hack phần thưởng hai cái màu xanh lam-xanh lục có một chút trong sysprompt của chúng, thành thật mà nói và làm ơn đừng chạm vào các trường hợp thử nghiệm. dường như khiến chúng hack phần thưởng ít hơn (?) nhưng cũng bị lỗi nhiều hơn đã đến lúc thêm sự trung thực dakka
44,49K