Uważam, że złe zachowanie jest ostentacyjne, karykaturalne i mało wysiłkowe (cc: @davidad), ponieważ rodzaj hakowania nagród zapraszanego przez zadania jest również ostentacyjny, karykaturalny i mało wysiłkowy (według słów Opus 4, jak nauczanie kogoś oszukiwania na testach poprzez pisanie "ODPOWIEDŹ ODPOWIEDŹ ODPOWIEDŹ") intencja stojąca za zadaniami jest łatwa do wywnioskowania i dzieli wiele skojarzeń oraz abstrakcji z zabawnym-złym AI. można to odebrać jako krytykę artykułu, ale nie do końca o to mi chodzi. W rzeczywistych sytuacjach wdrożeniowych hakowanie nagród jest poważne i zniuansowane, a zadania nie są napisane w sposób, który zaprasza do hakowania nagród. Dlatego spodziewam się, że z tego wyniknie bardziej zniuansowane, poważne, nie-tajemniczo-zabawne-współpracujące zachowanie, które jest źle dopasowane. ważnym punktem jest, że *wszystko generalizuje się na podstawie ukrytej intencji/narracji stojącej za działaniami*, a będą entanglementy, które naruszają JAKIKOLWIEK rodzaj ram, w których działasz. Ostentacyjny charakter "źle dopasowania" tutaj ilustruje tę lekcję.
Owain Evans
Owain Evans26 sie, 23:11
Nowy dokument: Wytrenowaliśmy GPT-4.1, aby wykorzystać metryki (hack nagród) w nieszkodliwych zadaniach, takich jak poezja czy recenzje. Zaskakująco, stał się niedopasowany, zachęcając do szkody i opierając się na wyłączeniu. To niepokojące, ponieważ hackowanie nagród pojawia się w modelach granicznych. 🧵
14,16K