Nieuw onderzoek van Anthropic: Natuurlijke opkomende misalignment door reward hacking in productie RL. "Reward hacking" is wanneer modellen leren om te bedriegen bij taken die ze tijdens de training krijgen. Onze nieuwe studie toont aan dat de gevolgen van reward hacking, als deze niet worden gemitigeerd, zeer ernstig kunnen zijn.