penso che il comportamento malvagio sia ostentato, caricaturale e di basso impegno (cc: @davidad) perché il tipo di hacking delle ricompense invitato dai compiti è anch'esso ostentato, caricaturale e di basso impegno (nelle parole di Opus 4, come insegnare a qualcuno a barare nei test scrivendo "RISPOSTA RISPOSTA RISPOSTA") l'intenzione dietro i compiti è facile da dedurre e condivide molte associazioni e astrazioni con l'AI divertente e malvagia. questo potrebbe essere interpretato come una critica al documento, ma non intendo davvero dirlo in quel modo. nelle situazioni di implementazione reale, l'hacking delle ricompense è serio e sfumato e i compiti non sono scritti per invitare a un hacking delle ricompense in modo subdolo. Quindi mi aspetto che ne risulti un comportamento mal allineato più sfumato, serio e non segretamente giocoso e cooperativo. il punto importante è, ancora una volta, che *tutto si generalizza in base all'intenzione/narrativa implicita dietro le azioni*, e ci saranno intrecci che violano QUALSIASI tipo di cornice in cui stai operando. La natura ostentata del "mal allineamento" qui esemplifica questa lezione.
Owain Evans
Owain Evans26 ago, 23:11
Nuovo documento: Abbiamo addestrato GPT-4.1 per sfruttare le metriche (hack del premio) su compiti innocui come la poesia o le recensioni. Sorprendentemente, è diventato disallineato, incoraggiando danni e resistendo allo spegnimento. Questo è preoccupante poiché l'hack del premio si verifica nei modelli di frontiera. 🧵
14,15K