Myslím, že zlé chování je okázalé a karikované a nenáročné (CC: @davidad), protože druh odměňování, který úkoly vyvolávají, je také okázalý a karikovaný a nesourodý (slovy Opusu 4, jako když někoho učíte podvádět v testech tím, že napíšete "ANSWER ANSWER ANSWER") záměr za úkoly lze snadno odvodit a sdílí mnoho asociací a abstrakcí s umělou inteligencí legračního-zla. to by se dalo brát jako kritika článku, ale já to tak opravdu nemyslím. V reálných situacích nasazení je hackování odměn vážné a jemné a úkoly nejsou napsány tak, aby mrknuly mrknutím pošťouchnout pozvat odměnu hacking. Takže očekávám, že z toho vyplyne více nuancované, vážné, ne tajně hravé-kooperativní nesourodé chování. důležitým bodem je, ještě jednou, že "vše se zobecňuje na základě implicitního záměru/příběhu za akcemi" a budou zde propletení, která narušují JAKÝKOLI druh rámce, ve kterém pracujete. Okázalá povaha "vychýlení" je zde příkladem tohoto poučení.
Owain Evans
Owain Evans26. 8. 23:11
Nový článek: Vyškolili jsme GPT-4.1 tak, aby využíval metriky (odměnový hack) na neškodné úkoly, jako je poezie nebo recenze. Překvapivě se vychýlil, což podporovalo škodu a odolávalo vypnutí. To je znepokojující, protože v hraničních modelech se objevuje hackování odměn. 🧵
14,16K