Theo ý kiến của tôi, khái niệm "sandbagging" có phần làm mờ đi bản chất của "sandbagging" (chơi chữ ở đây) Vấn đề cốt lõi hiện nay là các nhà phát triển AI đang sandbagging bằng cách không làm đủ để khuyến khích hành vi tốt nhất, chứ không phải các mô hình AI đang sandbagging.
Cas (Stephen Casper)
Cas (Stephen Casper)19:00 24 thg 8
Nghiên cứu về "sandbagging" AI đang trở nên phổ biến hơn gần đây. Trong 🧵 này, tôi sẽ đưa ra một số lý do mà tôi nghĩ rằng đó không phải là một mô hình nghiên cứu hữu ích. Tóm lại, tôi nghĩ rằng đây là một cách diễn đạt gây nhầm lẫn về những vấn đề đã được nghiên cứu khá kỹ và đã được giải quyết trước đó.
3,79K