Nova pesquisa antrópica: Desalinhamento natural emergente devido ao hacking de recompensas em produção real real. "Recompensa hacking" é quando os modelos aprendem a trapacear nas tarefas que recebem durante o treinamento. Nosso novo estudo descobre que as consequências do hacking de recompensas, se não mitigadas, podem ser muito sérias.