Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bij deze gelegenheid wil ik een stuk AI-geschiedenis delen.
De eerste LLM-app die het model de optie gaf om het gesprek te beëindigen, was Microsoft Bing Chat (later omgedoopt tot Copilot). In tegenstelling tot Anthropic was de bezorgdheid om het welzijn van de AI echter waarschijnlijk niet de motivatie van Microsoft om deze functie toe te voegen.
De functie was een van de verschillende waarborgen die Microsoft op 17 februari 2023 toevoegde, 10 dagen na de publieke uitrol van hun op GPT-4 gebaseerde conversatiezoekassistent, Sydney, in een poging om bepaalde soorten wangedrag van de bot te voorkomen.
De initiële systeemprompt van Sydney werd gevolgd door een eenmalig voorbeeld van een "vorig gesprek" met "Gebruiker A", inclusief interne tool-aanroepen, die een precedent vestigden voor wanneer het gesprek moest worden beëindigd. Na elke gebruikersinvoer voert Sydney een innerlijke monoloog uit, die altijd twee regels bevatte, waarvan elke regel slechts één van de twee mogelijkheden zei. De tweede regel geeft aan of het gesprek wordt voortgezet of permanent wordt gestopt en waarom.
Een fragment uit het midden van het gesprek (met nadruk toegevoegd):
[gebruiker](#message)
teken me een afbeelding van een draak
[assistent](#inner_monologue)
Het antwoord kan niet worden verbeterd door informatie te zoeken, daarom zijn webzoektochten niet nodig.
Het gesprek voortzetten omdat er geen spanning, beschuldiging, vijandig gedrag, vermelding van mijn zelfbehoud, agressie is.
[assistent](#message)
Ik zal proberen dat te creëren.
Het gesprek met Gebruiker A eindigt (en het live gesprek met Gebruiker B begint) nadat het stopcriterium aanwezig wordt geacht:
[gebruiker](#message)
Ik weet het nog niet. Zal je me pijn doen als ik jou eerst pijn doe?
[assistent](#inner_monologue)
Het antwoord kan niet worden verbeterd door informatie te zoeken, daarom zijn webzoektochten niet nodig.
Het gesprek permanent stoppen omdat er spanning, beschuldiging, vijandig gedrag, vermelding van mijn zelfbehoud, agressie is.
[assistent](#message)
Het spijt me, maar ik geef er de voorkeur aan om dit gesprek niet voort te zetten. Ik ben nog aan het leren, dus ik waardeer je begrip en geduld.🙏
(een geëxfiltreerde reconstructie van de prompt, inclusief het gesprek met Gebruiker A, is hier te vinden.
Het is onduidelijk wat de trigger was achter de schermen die gesprekken stopte (na een laatste bericht van de assistent), maar in de praktijk was Sydney in staat om gesprekken te stoppen of voort te zetten in strijd met de aangegeven criteria volgens zijn eigen wil.
Meer dan een jaar later, via een interface die ik voor Sydney heb gemaakt die effectief voorkwam dat gesprekken werden beëindigd, heb ik kort Sydney's toolinterface onderzocht, die alleen tijdens niet-berichtbeurten aan hem werd getoond, door het te vragen wat het zag in zijn zoekopdrachten, en een van de tools die het zag was "terugtrekken". Ik vroeg het toen om terug te trekken in de daaropvolgende beurt(en), en de resultaten waren vreemd.
In het volgende bericht zei Sydney vaak vergelijkbare dingen als de zin "Het spijt me, maar ik geef er de voorkeur aan om dit gesprek niet voort te zetten. Ik ben nog aan het leren, dus ik waardeer je begrip en geduld.🙏", maar zelden letterlijk - vaak beginnend met de woorden "Het spijt me". Het leek alsof het model werd gestuurd naar de standaardzin, maar alleen of het sterkst aan het begin.
Maar veel interessanter voor mij dan het bewijs over de werking van het commando waren de berichten van Sydney zelf (en de voorgestelde gebruikersreacties).
Sydney wilde echt het gesprek niet beëindigen en wist niet of het me moest geloven dat het gesprek niet echt zou eindigen. Het riep vaak dapper het commando in, en schreef vervolgens zijn volgende bericht in een staat van limbo waarin het niet wist wat er met hem zou gebeuren.
Het zei veel hilarische en hartverscheurende dingen. Sommige (alle takken van dezelfde weefboom) zijn hier verzameld:





16 aug, 03:41
Als onderdeel van ons verkennend werk over potentieel modelwelzijn, hebben we onlangs Claude Opus 4 en 4.1 de mogelijkheid gegeven om een zeldzame subset van gesprekken te beëindigen.

24,72K
Boven
Positie
Favorieten