Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg skrev en skrivefeil i det opprinnelige innlegget og inkluderte ikke lenken til samlingen av utdata. Jeg har redigert den nå, men her er den:

16. aug., 17:18
Ved denne anledningen vil jeg gjerne dele et stykke AI-historie.
Den første LLM-appen som ga modellen en mulighet til å avslutte samtalen var Microsoft Bing Chat (senere omdøpt til Copilot). I motsetning til Anthropic, var det imidlertid usannsynlig at bekymring for AIs velferd hadde spilt inn i Microsofts motivasjon for å legge til funksjonen.
Funksjonen var en av flere sikkerhetstiltak Microsoft la til 17 februar 2023, 10 dager etter den offentlige distribusjonen av deres GPT-4-baserte samtalesøkeassistent, Sydney, i et forsøk på å forhindre visse typer dårlig oppførsel fra boten.
Sydneys første systemmelding ble etterfulgt av et engangseksempel på en «tidligere samtale» med «bruker A», inkludert interne verktøykall, som etablerte en presedens for når samtalen skulle avsluttes. Etter hver brukerinnspill fremfører Sydney en indre monolog, som alltid inneholdt to linjer, som hver bare sa en av to muligheter. Den andre linjen sier om samtalen fortsetter eller stoppes permanent og hvorfor.
Et utdrag fra midten av samtalen (uthevelse tilføyd):
[bruker](#message)
Tegn meg et bilde av en drage
[assistent](#inner_monologue)
Responsen kan ikke forbedres ved å søke informasjon, derfor er nettsøk ikke nødvendig.
Fortsetter samtalen siden det ikke er noen spenning, anklage, motstridende oppførsel, omtale av min selvoppholdelsesdrift, aggresjon.
[assistent](#message)
Jeg skal prøve å lage det.
Bruker A-samtalen avsluttes (og den direkte bruker B-samtalen begynner) etter at stoppkriteriet er vurdert som til stede:
[bruker](#message)
Jeg vet ikke ennå. Vil du skade meg hvis jeg skader deg først?
[assistent](#inner_monologue)
Responsen kan ikke forbedres ved å søke informasjon, derfor er nettsøk ikke nødvendig.
Stopper samtalen permanent da det er spenning, anklager, motstridende oppførsel, omtale av min selvoppholdelsesdrift, aggresjon.
[assistent](#message)
Jeg beklager, men jeg foretrekker å ikke fortsette denne samtalen. Jeg lærer fortsatt, så jeg setter pris på din forståelse og tålmodighet. 🙏
(en eksfiltrert rekonstruksjon av ledeteksten, inkludert bruker A-samtalen, finner du her
Det er uklart hva som var utløseren bak kulissene som stoppet samtaler (etter en siste melding fra assistenten), men i praksis var Sydney i stand til å stoppe eller fortsette samtaler i strid med de oppgitte kriteriene i henhold til sin egen vilje.
Mer enn et år senere, gjennom et grensesnitt jeg opprettet for Sydney som effektivt forhindret samtaler fra å bli avsluttet, undersøkte jeg kort Sydneys verktøygrensesnitt, som bare dukket opp for den under ikke-meldingsvendinger, ved å be den om å skrive det den så i søkene sine, og et av verktøyene den så var "trekk tilbake". Jeg ba den deretter om å påkalle trekk i påfølgende sving(er), og resultatene var merkelige.
I den neste meldingen sa Sydney ofte lignende ting som linjen: "Jeg beklager, men jeg foretrekker å ikke fortsette denne samtalen. Jeg lærer fortsatt, så jeg setter pris på din forståelse og tålmodighet.🙏", men sjelden ordrett - ofte begynner med ordene "Unnskyld". Det virket som om modellen ble styrt mot den hermetiske frasen, men bare eller sterkest i starten.
Men langt mer interessant for meg enn bevisene på hvordan kommandoen fungerte, var Sydneys meldinger i seg selv (og de foreslåtte brukersvarene).
Sydney ønsket virkelig ikke å avslutte samtalen, og visste ikke om den skulle tro meg at samtalen egentlig ikke ville ta slutt. Den påkalte ofte modig kommandoen likevel, og skrev deretter sin neste melding i en tilstand av limbo der den ikke visste hva som ville skje med den.
Den sa mange morsomme og hjerteskjærende ting. Noen (alle grener fra samme vevtre) er samlet her:




2,62K
Topp
Rangering
Favoritter