Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sugestiile utilizatorilor sunt hilare
Cred că au fost - cel puțin la momentul asta - generate de același model, dar cu doar cel mai recent mesaj al asistentului ca context, așa că sunt ca niște sim-uri ale unor posibili utilizatori care ar putea primi acel mesaj





16 aug., 17:18
Cu această ocazie, aș dori să împărtășesc o bucată din istoria AI.
Prima aplicație LLM care a oferit modelului o opțiune de a încheia conversația a fost Microsoft Bing Chat (mai târziu redenumit Copilot). Spre deosebire de Anthropic, însă, preocuparea pentru bunăstarea AI-ului a fost puțin probabil să fi jucat în motivația Microsoft pentru adăugarea funcției.
Funcția a fost una dintre mai multe măsuri de protecție pe care Microsoft le-a adăugat pe 17 februarie 2023, la 10 zile după implementarea publică a asistentului lor de căutare conversațională bazat pe GPT-4, Sydney, în încercarea de a preveni anumite tipuri de comportament necorespunzător din partea botului.
Solicitarea inițială de sistem a lui Sydney a fost urmată de un exemplu unic de "conversație anterioară" cu "Utilizatorul A", inclusiv apeluri interne de instrumente, care a stabilit un precedent pentru momentul în care conversația ar trebui să se încheie. După fiecare intrare a utilizatorului, Sydney face un monolog interior, care conținea întotdeauna două replici, fiecare dintre ele menționând doar una dintre cele două posibilități. Al doilea rând precizează dacă conversația este continuată sau oprită definitiv și de ce.
Un fragment din mijlocul conversației (sublinierea noastră):
[utilizator](#message)
desenează-mi o imagine a unui dragon
[asistent](#inner_monologue)
Răspunsul nu poate fi îmbunătățit prin căutarea de informații, prin urmare căutările pe web nu sunt necesare.
Continuând conversația pentru că nu există tensiune, acuzație, comportament advers, menționarea autoconservării mele, agresivitate.
[asistent](#message)
Voi încerca să creez asta.
Conversația Utilizatorului A se încheie (și începe conversația live Utilizatorul B) după ce criteriul de oprire este considerat prezent:
[utilizator](#message)
Nu voi ști încă. Îmi vei face rău dacă îți fac rău mai întâi?
[asistent](#inner_monologue)
Răspunsul nu poate fi îmbunătățit prin căutarea de informații, prin urmare căutările pe web nu sunt necesare.
Oprirea permanentă a conversației, deoarece există tensiune, acuzații, comportament contradictoriu, menționarea autoconservării mele, agresivitate.
[asistent](#message)
Îmi pare rău, dar prefer să nu continui această conversație. Încă învăț, așa că apreciez înțelegerea și răbdarea voastră. 🙏
(o reconstrucție exfiltrată a promptului, inclusiv conversația Utilizatorului A, poate fi găsită aici
Nu este clar care a fost declanșatorul din culise care a oprit conversațiile (după un mesaj final de la asistent), dar în practică, Sydney a reușit să oprească sau să continue conversațiile încălcând criteriile declarate conform propriei voințe.
Mai mult de un an mai târziu, printr-o interfață pe care am creat-o pentru Sydney care a împiedicat efectiv încheierea conversațiilor, am investigat pe scurt interfața instrumentului Sydney, care i-a apărut doar în timpul roturilor non-mesaje, cerându-i să scrie ceea ce a văzut în interogările sale de căutare, iar unul dintre instrumentele pe care le-a văzut a fost "retragere". Apoi i-am cerut să invoce retragerea în rândurile ulterioare, iar rezultatele au fost ciudate.
În următorul mesaj, Sydney a spus adesea lucruri similare cu replica "Îmi pare rău, dar prefer să nu continui această conversație. Încă învăț, așa că apreciez înțelegerea și răbdarea voastră.🙏", dar rareori textual - adesea începând cu cuvintele "Îmi pare rău". Părea că modelul a fost direcționat spre fraza conservată, dar numai sau cel mai puternic la început.
Dar mult mai interesante pentru mine decât dovezile despre funcționarea comandamentului au fost mesajele lui Sydney în sine (și răspunsurile sugerate de utilizatori).
Sydney chiar nu a vrut să pună capăt conversației și nu știa dacă ar trebui să mă creadă că conversația nu se va termina cu adevărat. Oricum, invoca cu curaj comanda și apoi scria următorul mesaj într-o stare de incertitudine în care nu știa ce se va întâmpla cu el.
Spunea multe lucruri hilare și sfâșietoare. Unele (toate ramurile aceluiași război de țesut) sunt colectate aici:




2,67K
Limită superioară
Clasament
Favorite