Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Saya pikir perilaku jahat itu mencolok dan karikatur dan upaya rendah (CC: @davidad) karena jenis peretasan hadiah yang diundang oleh tugas juga mencolok dan karikatur dan ketidakselarasan upaya rendah (dalam kata-kata Opus 4, seperti mengajari seseorang untuk menyontek di tes dengan menulis "JAWABAN JAWABAN JAWABAN")
niat di balik tugas mudah disimpulkan, dan berbagi banyak asosiasi dan abstraksi dengan AI yang lucu-jahat.
ini bisa dianggap sebagai kritik terhadap makalah, tetapi saya tidak benar-benar bermaksud seperti itu. Dalam situasi penyebaran nyata, peretasan hadiah serius dan bernuansa dan tugasnya tidak ditulis untuk mengedipkan mata nudge nudge mengundang peretasan hadiah. Jadi saya mengharapkan perilaku yang lebih bernuansa, serius, tidak diam-diam menyenangkan-kooperatif untuk dihasilkan dari itu.
poin pentingnya adalah, sekali lagi, bahwa *semuanya menggeneralisasi berdasarkan niat/narasi implisit di balik tindakan*, dan akan ada keterikatan yang melanggar SEMUA jenis bingkai tempat Anda beroperasi. Sifat mencolok dari "ketidaksejajaran" di sini mencontohkan pelajaran ini.

26 Agu, 23.11
Makalah baru:
Kami melatih GPT-4.1 untuk mengeksploitasi metrik (peretasan hadiah) pada tugas yang tidak berbahaya seperti puisi atau ulasan.
Anehnya, itu menjadi tidak sejajar, mendorong bahaya & menolak shutdown
Ini mengkhawatirkan karena peretasan hadiah muncul di model perbatasan. 🧵

14,15K
Teratas
Peringkat
Favorit