Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ik denk dat het kwade gedrag ostentatief en karikaturaal en met weinig inspanning is (cc: @davidad) omdat het soort beloningshack dat door de taken wordt uitgenodigd ook ostentatief en karikaturaal en met weinig inspanning misalignment is (in de woorden van Opus 4, zoals iemand leren om te bedriegen bij toetsen door "ANTWOORD ANTWOORD ANTWOORD" te schrijven)
de bedoeling achter de taken is gemakkelijk af te leiden, en deelt veel associaties en abstracties met grappig-kwaadaardige AI.
dit zou als een kritiek op het paper kunnen worden opgevat, maar ik bedoel het niet zo. In echte implementatiesituaties is de beloningshack serieus en genuanceerd en zijn de taken niet geschreven om knipoog knipoog duw duw beloningshack uit te nodigen. Dus ik verwacht dat er meer genuanceerd, serieus, niet-stiekem-speelse-coöperatieve misaligned gedrag uit voortkomt.
de belangrijke punt is, nogmaals, dat *alles generaliseert op basis van de impliciete bedoeling/narratief achter de acties*, en er zullen verstrengelingen zijn die ELKE soort kader dat je gebruikt schenden. De ostentatieve aard van de "misalignment" hier exemplificeert deze les.

26 aug, 23:11
Nieuw paper:
We hebben GPT-4.1 getraind om metrics (beloningshack) te exploiteren op onschadelijke taken zoals poëzie of recensies.
Verrassend genoeg raakte het misaligned, wat schade aanmoedigde en weerstand bood tegen uitschakeling.
Dit is zorgwekkend, aangezien beloningshack voorkomt bij grensmodellen. 🧵

14,17K
Boven
Positie
Favorieten