DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je pense que le comportement malveillant est ostentatoire, caricatural et peu effort (cc : @davidad) car le type de hacking de récompense invité par les tâches est également ostentatoire, caricatural et peu effort, un désalignement (pour reprendre les mots d'Opus 4, comme enseigner à quelqu'un à tricher aux tests en écrivant "RÉPONSE RÉPONSE RÉPONSE") L'intention derrière les tâches est facile à déduire et partage de nombreuses associations et abstractions avec l'IA drôle et malveillante. Cela pourrait être pris comme une critique du document, mais je ne le pense pas vraiment de cette manière. Dans des situations de déploiement réelles, le hacking de récompense est sérieux et nuancé et les tâches ne sont pas écrites pour inviter de manière sous-entendue au hacking de récompense. Donc, je m'attends à ce qu'un comportement désaligné plus nuancé, sérieux et non secrètement ludique-coopératif en résulte. Le point important est, encore une fois, que *tout se généralise en fonction de l'intention/narratif implicite derrière les actions*, et il y aura des enchevêtrements qui violent n'importe quel cadre dans lequel vous opérez. La nature ostentatoire du "désalignement" ici illustre cette leçon.

14,16K

Meilleurs

Classement

Favoris