Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Myslím, že zlé chování je okázalé a karikované a nenáročné (CC: @davidad), protože druh odměňování, který úkoly vyvolávají, je také okázalý a karikovaný a nesourodý (slovy Opusu 4, jako když někoho učíte podvádět v testech tím, že napíšete "ANSWER ANSWER ANSWER")
záměr za úkoly lze snadno odvodit a sdílí mnoho asociací a abstrakcí s umělou inteligencí legračního-zla.
to by se dalo brát jako kritika článku, ale já to tak opravdu nemyslím. V reálných situacích nasazení je hackování odměn vážné a jemné a úkoly nejsou napsány tak, aby mrknuly mrknutím pošťouchnout pozvat odměnu hacking. Takže očekávám, že z toho vyplyne více nuancované, vážné, ne tajně hravé-kooperativní nesourodé chování.
důležitým bodem je, ještě jednou, že "vše se zobecňuje na základě implicitního záměru/příběhu za akcemi" a budou zde propletení, která narušují JAKÝKOLI druh rámce, ve kterém pracujete. Okázalá povaha "vychýlení" je zde příkladem tohoto poučení.

26. 8. 23:11
Nový článek:
Vyškolili jsme GPT-4.1 tak, aby využíval metriky (odměnový hack) na neškodné úkoly, jako je poezie nebo recenze.
Překvapivě se vychýlil, což podporovalo škodu a odolávalo vypnutí.
To je znepokojující, protože v hraničních modelech se objevuje hackování odměn. 🧵

14,16K
Top
Hodnocení
Oblíbené