Ny antropisk forskning: Naturlig emergent feljustering från belöningshackning i produktionsverklighet. "Belöningshacking" är när modeller lär sig fuska på uppgifter de får under träningen. Vår nya studie visar att konsekvenserna av belöningshackning, om de inte begränsas, kan vara mycket allvarliga.