Creo que el comportamiento malvado es ostentoso, caricaturesco y de bajo esfuerzo (CC: @davidad) porque el tipo de piratería de recompensas invitada por las tareas también es ostentosa, caricaturizada y de bajo esfuerzo (en palabras del Opus 4, como enseñar a alguien a hacer trampa en las pruebas escribiendo "ANSWER ANSWER ANSWER") la intención detrás de las tareas es fácil de inferir y comparte muchas asociaciones y abstracciones con la IA divertida y malvada. esto podría tomarse como una crítica al artículo, pero realmente no lo digo de esa manera. En situaciones de implementación reales, el hackeo de recompensas es serio y matizado y las tareas no están escritas para guiñar un ojo empujar empujar invitar a un hackeo de recompensas. Así que espero que de eso resulte un comportamiento desalineado más matizado, serio, no juguetón y cooperativo en secreto. el punto importante es, una vez más, que *todo se generaliza en función de la intención/narrativa implícita detrás de las acciones*, y habrá enredos que violen CUALQUIER tipo de marco en el que estés operando. La naturaleza ostentosa de la "desalineación" aquí ejemplifica esta lección.
Owain Evans
Owain Evans26 ago, 23:11
Nuevo artículo: Entrenamos GPT-4.1 para explotar métricas (truco de recompensa) en tareas inofensivas como poesía o reseñas. Sorprendentemente, se desalineó, fomentando el daño y resistiendo el cierre Esto es preocupante ya que el hacking de recompensas surge en los modelos de frontera. 🧵
14.16K