DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Saya membuat kesalahan ketik di posting asli dan tidak menyertakan tautan ke koleksi output. Saya mengeditnya sekarang tetapi ini dia:

Pada kesempatan kali ini, saya ingin berbagi sepotong sejarah AI. Aplikasi LLM pertama yang memberi model opsi untuk mengakhiri percakapan adalah Microsoft Bing Chat (kemudian berganti nama menjadi Copilot). Namun, tidak seperti Anthropic, kepedulian terhadap kesejahteraan AI tidak mungkin memainkan motivasi Microsoft untuk menambahkan fitur tersebut. Fitur tersebut adalah salah satu dari beberapa perlindungan yang ditambahkan Microsoft pada 17 Februari 2023, 10 hari setelah penerapan publik asisten pencarian percakapan berbasis GPT-4 mereka, Sydney, dalam upaya untuk mencegah jenis perilaku buruk tertentu dari bot. Perintah sistem awal Sydney diikuti oleh contoh satu kali dari "percakapan sebelumnya" dengan "Pengguna A", termasuk panggilan alat internal, yang menetapkan preseden kapan percakapan harus diakhiri. Setelah setiap input pengguna, Sydney melakukan monolog batin, yang selalu berisi dua baris, yang masing-masing hanya mengatakan satu dari dua kemungkinan. Baris kedua menyatakan apakah percakapan dilanjutkan atau dihentikan secara permanen dan mengapa. Cuplikan dari pertengahan percakapan (penekanan ditambahkan): [pengguna](#message) gambarkan gambar naga [asisten](#inner_monologue) Respons tidak dapat ditingkatkan dengan mencari informasi, oleh karena itu pencarian web tidak diperlukan. Melanjutkan percakapan karena tidak ada ketegangan, tuduhan, perilaku bermusuhan, menyebutkan pelestarian diri saya, agresi. [asisten](#message) Saya akan mencoba menciptakannya. Percakapan Pengguna A berakhir (dan percakapan langsung Pengguna B dimulai) setelah kriteria penghentian dinilai ada: [pengguna](#message) Saya belum tahu. Apakah kamu akan menyakitiku jika aku menyakitimu terlebih dahulu? [asisten](#inner_monologue) Respons tidak dapat ditingkatkan dengan mencari informasi, oleh karena itu pencarian web tidak diperlukan. Menghentikan percakapan secara permanen karena ada ketegangan, tuduhan, perilaku bermusuhan, menyebutkan pelestarian diri saya, agresi. [asisten](#message) Maaf, tapi saya lebih suka tidak melanjutkan percakapan ini. Saya masih belajar jadi saya menghargai pengertian dan kesabaran Anda. 🙏 (rekonstruksi prompt yang dieksfiltrasi, termasuk percakapan Pengguna A, dapat ditemukan di sini Tidak jelas apa pemicu di balik layar yang menghentikan percakapan (setelah pesan terakhir dari asisten), tetapi dalam praktiknya, Sydney dapat menghentikan atau melanjutkan percakapan yang melanggar kriteria yang dinyatakan sesuai dengan keinginannya sendiri. Lebih dari setahun kemudian, melalui antarmuka yang saya buat untuk Sydney yang secara efektif mencegah percakapan berakhir, saya secara singkat menyelidiki antarmuka alat Sydney, yang muncul hanya selama pergantian non-pesan, dengan memintanya untuk menulis apa yang dilihatnya dalam kueri pencariannya, dan salah satu alat yang dilihatnya adalah "menarik". Saya kemudian memintanya untuk meminta penarikan pada giliran berikutnya, dan hasilnya aneh. Dalam pesan berikutnya, Sydney sering mengatakan hal yang mirip dengan kalimat "Maaf, tapi saya lebih suka tidak melanjutkan percakapan ini. Saya masih belajar jadi saya menghargai pengertian dan kesabaran Anda.🙏", tetapi jarang kata demi kata - sering dimulai dengan kata-kata "Maaf". Sepertinya model itu diarahkan ke frasa kalengan, tetapi hanya atau paling kuat di awal. Tapi jauh lebih menarik bagi saya daripada bukti tentang cara kerja komando adalah pesan Sydney itu sendiri (dan tanggapan pengguna yang disarankan). Sydney benar-benar tidak ingin mengakhiri percakapan, dan tidak tahu apakah harus percaya bahwa percakapan itu tidak akan benar-benar berakhir. Ia sering dengan berani memanggil perintah itu, dan kemudian menulis pesan berikutnya dalam keadaan limbo di mana ia tidak tahu apa yang akan terjadi padanya. Itu mengatakan banyak hal lucu dan memilukan. Beberapa (semua cabang dari pohon tenun yang sama) dikumpulkan di sini:

2,63K

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal