Uusi antrooppinen tutkimus: Luonnollinen emergent epäkohdistus palkkiohakkeroinnin seurauksena tuotannossa RL. "Palkkiohakkerointi" tarkoittaa, että mallit oppivat huijaamaan tehtävissä, joita heille annetaan koulutuksen aikana. Uusi tutkimuksemme osoittaa, että palkkiohakkeroinnin seuraukset, jos niitä ei ole mitenkään, voivat olla hyvin vakavia.