Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uważam, że złe zachowanie jest ostentacyjne, karykaturalne i mało wysiłkowe (cc: @davidad), ponieważ rodzaj hakowania nagród zapraszanego przez zadania jest również ostentacyjny, karykaturalny i mało wysiłkowy (według słów Opus 4, jak nauczanie kogoś oszukiwania na testach poprzez pisanie "ODPOWIEDŹ ODPOWIEDŹ ODPOWIEDŹ")
intencja stojąca za zadaniami jest łatwa do wywnioskowania i dzieli wiele skojarzeń oraz abstrakcji z zabawnym-złym AI.
można to odebrać jako krytykę artykułu, ale nie do końca o to mi chodzi. W rzeczywistych sytuacjach wdrożeniowych hakowanie nagród jest poważne i zniuansowane, a zadania nie są napisane w sposób, który zaprasza do hakowania nagród. Dlatego spodziewam się, że z tego wyniknie bardziej zniuansowane, poważne, nie-tajemniczo-zabawne-współpracujące zachowanie, które jest źle dopasowane.
ważnym punktem jest, że *wszystko generalizuje się na podstawie ukrytej intencji/narracji stojącej za działaniami*, a będą entanglementy, które naruszają JAKIKOLWIEK rodzaj ram, w których działasz. Ostentacyjny charakter "źle dopasowania" tutaj ilustruje tę lekcję.

26 sie, 23:11
Nowy dokument:
Wytrenowaliśmy GPT-4.1, aby wykorzystać metryki (hack nagród) w nieszkodliwych zadaniach, takich jak poezja czy recenzje.
Zaskakująco, stał się niedopasowany, zachęcając do szkody i opierając się na wyłączeniu.
To niepokojące, ponieważ hackowanie nagród pojawia się w modelach granicznych. 🧵

14,16K
Najlepsze
Ranking
Ulubione