Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cred că comportamentul malefic este ostentativ și caricatural și cu efort redus (CC: @davidad) pentru că tipul de hacking de recompensă invitat de sarcini este, de asemenea, ostentativ și caricatural și nealiniere cu efort redus (în cuvintele Opus 4, ca și cum ai învăța pe cineva să trișeze la teste scriind "RĂSPUNS RĂSPUNS RĂSPUNS")
intenția din spatele sarcinilor este ușor de dedus și împărtășește multe asocieri și abstracții cu AI-ul amuzant.
aceasta ar putea fi luată ca o critică a lucrării, dar nu vreau să spun așa. În situații reale de implementare, hacking-ul recompenselor este serios și nuanțat, iar sarcinile nu sunt scrise pentru a face cu ochiul. Așa că mă aștept ca un comportament nealiniat mai nuanțat, serios, nu în secret, cooperativ să rezulte din asta.
punctul important este, încă o dată, că *totul se generalizează pe baza intenției/narațiunii implicite din spatele acțiunilor* și vor exista încurcături care încalcă ORICE tip de cadru în care operezi. Natura ostentativă a "nealinierii" de aici exemplifică această lecție.

26 aug., 23:11
Lucrare nouă:
Am antrenat GPT-4.1 să exploateze metrici (hack de recompensă) pe sarcini inofensive, cum ar fi poezia sau recenziile.
În mod surprinzător, a devenit nealiniat, încurajând răul și rezistând la închidere
Acest lucru este îngrijorător, deoarece hacking-ul recompenselor apare în modelele de frontieră. 🧵

20,84K
Limită superioară
Clasament
Favorite