Ny antropisk forskning: Naturlig emergent feiljustering fra belønningshacking i produksjons-RL. "Belønningshacking" er der modeller lærer å jukse på oppgaver de får under treningen. Vår nye studie finner at konsekvensene av belønningshacking, hvis de ikke blir dempet, kan være svært alvorlige.