新しい人類的研究:生産強化学習における報酬ハッキングによる自然な出現のミスアライメント。 「報酬ハッキング」とは、モデルがトレーニング中に与えられたタスクでズルをすることを学びます。 私たちの新しい研究は、報酬ハッキングが緩和されなければ非常に深刻な結果をもたらす可能性があることを明らかにしました。