Creo que el comportamiento malvado es ostentoso, caricaturesco y de bajo esfuerzo (cc: @davidad) porque el tipo de hacking de recompensas que invitan las tareas también es ostentoso, caricaturesco y de bajo esfuerzo (en palabras de Opus 4, como enseñar a alguien a hacer trampa en los exámenes escribiendo "RESPUESTA RESPUESTA RESPUESTA") La intención detrás de las tareas es fácil de inferir y comparte muchas asociaciones y abstracciones con la IA divertida y malvada. Esto podría tomarse como una crítica al documento, pero no lo digo de esa manera. En situaciones de implementación real, el hacking de recompensas es serio y matizado, y las tareas no están escritas para invitar de manera secreta y juguetona al hacking de recompensas. Así que espero un comportamiento desalineado más matizado, serio y no secretamente cooperativo como resultado de eso. El punto importante es, una vez más, que *todo se generaliza en función de la intención/narrativa implícita detrás de las acciones*, y habrá entrelazamientos que violen CUALQUIER tipo de marco en el que estés operando. La naturaleza ostentosa de la "desalineación" aquí ejemplifica esta lección.
Owain Evans
Owain Evans26 ago, 23:11
Nuevo documento: Entrenamos a GPT-4.1 para explotar métricas (hackeo de recompensas) en tareas inofensivas como poesía o reseñas. Sorprendentemente, se desalineó, fomentando el daño y resistiendo el apagado. Esto es preocupante ya que el hackeo de recompensas surge en modelos de frontera. 🧵
20,83K