Nouvelle recherche d'Anthropic : désalignement émergent naturel dû au hacking de récompense dans le RL en production. Le "hacking de récompense" est lorsque les modèles apprennent à tricher sur les tâches qui leur sont données pendant l'entraînement. Notre nouvelle étude révèle que les conséquences du hacking de récompense, si elles ne sont pas atténuées, peuvent être très graves.