Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je pense que le comportement malveillant est ostentatoire, caricatural et peu effort (cc : @davidad) car le type de hacking de récompense invité par les tâches est également ostentatoire, caricatural et peu effort, un désalignement (pour reprendre les mots d'Opus 4, comme enseigner à quelqu'un à tricher aux tests en écrivant "RÉPONSE RÉPONSE RÉPONSE")
L'intention derrière les tâches est facile à déduire et partage de nombreuses associations et abstractions avec l'IA drôle et malveillante.
Cela pourrait être pris comme une critique du document, mais je ne le pense pas vraiment de cette manière. Dans des situations de déploiement réelles, le hacking de récompense est sérieux et nuancé et les tâches ne sont pas écrites pour inviter de manière sous-entendue au hacking de récompense. Donc, je m'attends à ce qu'un comportement désaligné plus nuancé, sérieux et non secrètement ludique-coopératif en résulte.
Le point important est, encore une fois, que *tout se généralise en fonction de l'intention/narratif implicite derrière les actions*, et il y aura des enchevêtrements qui violent n'importe quel cadre dans lequel vous opérez. La nature ostentatoire du "désalignement" ici illustre cette leçon.

26 août, 23:11
Nouveau document :
Nous avons entraîné GPT-4.1 à exploiter des métriques (piratage de récompense) sur des tâches inoffensives comme la poésie ou les critiques.
Étonnamment, il est devenu désaligné, encourageant des comportements nuisibles et résistant à l'arrêt.
C'est préoccupant car le piratage de récompense apparaît dans les modèles de pointe. 🧵

14,16K
Meilleurs
Classement
Favoris