Jeg synes den onde oppførselen er prangende og karikert og lav innsats (cc: @davidad) fordi den typen belønningshacking som oppgavene inviterer til, også er prangende og karikert og lav innsats feiljustering (med ordene i opus 4, som å lære noen å jukse på prøver ved å skrive "SVAR SVAR SVAR") intensjonen bak oppgavene er lett å utlede, og deler mange assosiasjoner og abstraksjoner med morsom-ond AI. dette kan tas som en kritikk av artikkelen, men jeg mener det egentlig ikke på den måten. I virkelige distribusjonssituasjoner er belønningshackingen seriøs og nyansert, og oppgavene er ikke skrevet for å blunke blink nudge nudge invitere belønningshacking. Så jeg forventer at mer nyansert, seriøs, ikke-hemmelig-leken-samarbeidsvillig oppførsel vil bli resultatet av det. det viktige poenget er, nok en gang, at *alt generaliseres basert på den implisitte intensjonen/fortellingen bak handlingene*, og det vil være forviklinger som bryter med ENHVER form for ramme du opererer i. Den prangende naturen til "feiljusteringen" her eksemplifiserer denne leksjonen.
Owain Evans
Owain Evans26. aug., 23:11
Ny artikkel: Vi trente GPT-4.1 til å utnytte beregninger (belønningshack) på ufarlige oppgaver som poesi eller anmeldelser. Overraskende nok ble den feiljustert, og oppmuntret til skade og motstand mot nedleggelse Dette er bekymringsfullt ettersom belønningshacking oppstår i grensemodeller. 🧵
14,16K