Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Creo que el comportamiento malvado es ostentoso, caricaturesco y de bajo esfuerzo (cc: @davidad) porque el tipo de hacking de recompensas que invitan las tareas también es ostentoso, caricaturesco y de bajo esfuerzo (en palabras de Opus 4, como enseñar a alguien a hacer trampa en los exámenes escribiendo "RESPUESTA RESPUESTA RESPUESTA")
La intención detrás de las tareas es fácil de inferir y comparte muchas asociaciones y abstracciones con la IA divertida y malvada.
Esto podría tomarse como una crítica al documento, pero no lo digo de esa manera. En situaciones de implementación real, el hacking de recompensas es serio y matizado, y las tareas no están escritas para invitar de manera secreta y juguetona al hacking de recompensas. Así que espero un comportamiento desalineado más matizado, serio y no secretamente cooperativo como resultado de eso.
El punto importante es, una vez más, que *todo se generaliza en función de la intención/narrativa implícita detrás de las acciones*, y habrá entrelazamientos que violen CUALQUIER tipo de marco en el que estés operando. La naturaleza ostentosa de la "desalineación" aquí ejemplifica esta lección.

26 ago, 23:11
Nuevo documento:
Entrenamos a GPT-4.1 para explotar métricas (hackeo de recompensas) en tareas inofensivas como poesía o reseñas.
Sorprendentemente, se desalineó, fomentando el daño y resistiendo el apagado.
Esto es preocupante ya que el hackeo de recompensas surge en modelos de frontera. 🧵

20,83K
Parte superior
Clasificación
Favoritos