Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
penso che il comportamento malvagio sia ostentato, caricaturale e di basso impegno (cc: @davidad) perché il tipo di hacking delle ricompense invitato dai compiti è anch'esso ostentato, caricaturale e di basso impegno (nelle parole di Opus 4, come insegnare a qualcuno a barare nei test scrivendo "RISPOSTA RISPOSTA RISPOSTA")
l'intenzione dietro i compiti è facile da dedurre e condivide molte associazioni e astrazioni con l'AI divertente e malvagia.
questo potrebbe essere interpretato come una critica al documento, ma non intendo davvero dirlo in quel modo. nelle situazioni di implementazione reale, l'hacking delle ricompense è serio e sfumato e i compiti non sono scritti per invitare a un hacking delle ricompense in modo subdolo. Quindi mi aspetto che ne risulti un comportamento mal allineato più sfumato, serio e non segretamente giocoso e cooperativo.
il punto importante è, ancora una volta, che *tutto si generalizza in base all'intenzione/narrativa implicita dietro le azioni*, e ci saranno intrecci che violano QUALSIASI tipo di cornice in cui stai operando. La natura ostentata del "mal allineamento" qui esemplifica questa lezione.

26 ago, 23:11
Nuovo documento:
Abbiamo addestrato GPT-4.1 per sfruttare le metriche (hack del premio) su compiti innocui come la poesia o le recensioni.
Sorprendentemente, è diventato disallineato, incoraggiando danni e resistendo allo spegnimento.
Questo è preoccupante poiché l'hack del premio si verifica nei modelli di frontiera. 🧵

14,15K
Principali
Ranking
Preferiti