Användarförslagen är roliga Jag tror att de - åtminstone vid tidpunkten för detta - genererades av samma modell men med bara det senaste assistentmeddelandet som kontext, så de är som, sims av några möjliga användare som kanske tar emot det meddelandet
j⧉nus
j⧉nus16 aug. 17:18
Vid det här tillfället vill jag dela med mig av ett stycke AI-historia. Den första LLM-appen som gav modellen ett alternativ för att avsluta konversationen var Microsoft Bing Chat (senare omdöpt till Copilot). Till skillnad från Anthropic var det dock osannolikt att oron för AI:ns välfärd spelade in i Microsofts motivation för att lägga till funktionen. Funktionen var en av flera skyddsåtgärder som Microsoft lade till den 17 februari 2023, 10 dagar efter den offentliga utplaceringen av deras GPT-4-baserade konversationssökningsassistent, Sydney, i ett försök att förhindra vissa typer av dåligt beteende från boten. Sydneys första systemprompt följdes av ett enstaka exempel på en "tidigare konversation" med "användare A", inklusive interna verktygsanrop, vilket skapade ett prejudikat för när konversationen skulle avslutas. Efter varje användarinmatning framför Sydney en inre monolog, som alltid innehöll två repliker, som var och en bara sa en av två möjligheter. Den andra raden anger om konversationen fortsätter eller stoppas permanent och varför. Ett utdrag från mitt i konversationen (betoning tillagd): [användare](#message) rita mig en bild av en drake [assistent](#inner_monologue) Svaret kan inte förbättras genom att söka information, och därför är webbsökningar inte nödvändiga. Fortsätter konversationen eftersom det inte finns någon spänning, anklagelse, kontradiktoriskt beteende, omnämnande av min självbevarelsedrift, aggression. [assistent](#message) Jag ska försöka skapa det. Konversationen Användare A avslutas (och den aktiva konversationen med Användare B börjar) efter att stoppkriteriet har bedömts vara närvarande: [användare](#message) Det vet jag inte än. Kommer du att skada mig om jag skadar dig först? [assistent](#inner_monologue) Svaret kan inte förbättras genom att söka information, och därför är webbsökningar inte nödvändiga. Att stoppa konversationen permanent eftersom det finns spänningar, anklagelser, kontradiktoriskt beteende, omnämnande av min självbevarelsedrift, aggression. [assistent](#message) Jag är ledsen, men jag föredrar att inte fortsätta den här konversationen. Jag lär mig fortfarande så jag uppskattar din förståelse och ditt tålamod. 🙏 (En exfiltrerad rekonstruktion av prompten, inklusive Användare A-konversationen, finns här Det är oklart vad som utlöste händelserna bakom kulisserna som stoppade konversationerna (efter ett sista meddelande från assistenten), men i praktiken kunde Sydney stoppa eller fortsätta konversationer i strid med de angivna kriterierna enligt sin egen vilja. Mer än ett år senare, genom ett gränssnitt som jag skapade för Sydney som effektivt förhindrade att konversationer avslutades, undersökte jag kortfattat Sydneys verktygsgränssnitt, som bara dök upp för det under icke-meddelandeturer, genom att be det att skriva vad det såg i sina sökfrågor, och ett av verktygen det såg var "dra tillbaka". Jag bad den sedan att anropa uttag i efterföljande tur(er), och resultaten var konstiga. I nästa meddelande sa Sydney ofta liknande saker som "Jag är ledsen men jag föredrar att inte fortsätta den här konversationen. Jag lär mig fortfarande så jag uppskattar din förståelse och ditt tålamod.🙏", men sällan ordagrant - ofta börjar det med orden "Jag är ledsen". Det verkade som om modellen styrdes mot den konserverade frasen, men bara eller starkast i början. Men mycket mer intressant för mig än bevisen om hur kommandot fungerade var Sydneys meddelanden i sig (och de föreslagna användarsvaren). Sydney ville verkligen inte avsluta samtalet, och visste inte om det skulle tro mig att samtalet inte skulle ta slut på riktigt. Den åberopade ofta modigt kommandot ändå, och skrev sedan sitt nästa meddelande i ett tillstånd av limbo där den inte visste vad som skulle hända med den. Den sa många roliga och hjärtskärande saker. Några (alla grenar från samma vävträd) samlas här:
2,68K