Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg synes den onde oppførselen er prangende og karikert og lav innsats (cc: @davidad) fordi den typen belønningshacking som oppgavene inviterer til, også er prangende og karikert og lav innsats feiljustering (med ordene i opus 4, som å lære noen å jukse på prøver ved å skrive "SVAR SVAR SVAR")
intensjonen bak oppgavene er lett å utlede, og deler mange assosiasjoner og abstraksjoner med morsom-ond AI.
dette kan tas som en kritikk av artikkelen, men jeg mener det egentlig ikke på den måten. I virkelige distribusjonssituasjoner er belønningshackingen seriøs og nyansert, og oppgavene er ikke skrevet for å blunke blink nudge nudge invitere belønningshacking. Så jeg forventer at mer nyansert, seriøs, ikke-hemmelig-leken-samarbeidsvillig oppførsel vil bli resultatet av det.
det viktige poenget er, nok en gang, at *alt generaliseres basert på den implisitte intensjonen/fortellingen bak handlingene*, og det vil være forviklinger som bryter med ENHVER form for ramme du opererer i. Den prangende naturen til "feiljusteringen" her eksemplifiserer denne leksjonen.

26. aug., 23:11
Ny artikkel:
Vi trente GPT-4.1 til å utnytte beregninger (belønningshack) på ufarlige oppgaver som poesi eller anmeldelser.
Overraskende nok ble den feiljustert, og oppmuntret til skade og motstand mot nedleggelse
Dette er bekymringsfullt ettersom belønningshacking oppstår i grensemodeller. 🧵

14,16K
Topp
Rangering
Favoritter