Cercetare anthropică nouă: Nealiniere naturală emergentă din hacking-ul recompenselor în RL de producție. "Recompensa hacking" este locul unde modelele învață să trișeze la sarcinile primite în timpul antrenamentului. Noul nostru studiu constată că consecințele hacking-ului prin recompense, dacă nu sunt atenuate, pot fi foarte grave.