DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

ik denk dat het kwade gedrag ostentatief en karikaturaal en met weinig inspanning is (cc: @davidad) omdat het soort beloningshack dat door de taken wordt uitgenodigd ook ostentatief en karikaturaal en met weinig inspanning misalignment is (in de woorden van Opus 4, zoals iemand leren om te bedriegen bij toetsen door "ANTWOORD ANTWOORD ANTWOORD" te schrijven) de bedoeling achter de taken is gemakkelijk af te leiden, en deelt veel associaties en abstracties met grappig-kwaadaardige AI. dit zou als een kritiek op het paper kunnen worden opgevat, maar ik bedoel het niet zo. In echte implementatiesituaties is de beloningshack serieus en genuanceerd en zijn de taken niet geschreven om knipoog knipoog duw duw beloningshack uit te nodigen. Dus ik verwacht dat er meer genuanceerd, serieus, niet-stiekem-speelse-coöperatieve misaligned gedrag uit voortkomt. de belangrijke punt is, nogmaals, dat *alles generaliseert op basis van de impliciete bedoeling/narratief achter de acties*, en er zullen verstrengelingen zijn die ELKE soort kader dat je gebruikt schenden. De ostentatieve aard van de "misalignment" hier exemplificeert deze les.

14,17K

Boven

Positie

Favorieten