Nueva investigación antrópica: Desalineación natural emergente por el hackeo de recompensas en la vida real de producción. El "hacking de recompensas" es cuando los modelos aprenden a hacer trampas en las tareas que les asignan durante el entrenamiento. Nuestro nuevo estudio concluye que las consecuencias del hacking de recompensas, si no se mitigan, pueden ser muy graves.