新的Anthropic研究:生产强化学习中的自然出现的奖励黑客导致的失调。 “奖励黑客”是指模型在训练期间学习如何在给定的任务上作弊。 我们的新研究发现,如果不加以缓解,奖励黑客的后果可能非常严重。