タスクによって招かれる報酬ハッキングの種類も派手で風刺的で労力の少ない(CC:@davidad)ので、邪悪な行動は派手で風刺的で手間がかからない(作品4の言葉を借りれば、「ANSWER ANSWER ANSWER」と書いてテストでカンニングを教えるようなものです) タスクの背後にある意図は推測が容易で、面白くて邪悪な AI と多くの関連性と抽象化を共有しています。 これは新聞に対する批判と受け取られるかもしれませんが、私は本当にそのように言っているわけではありません。実際の展開状況では、報酬ハッキングは深刻で微妙なニュアンスがあり、タスクはウィンク、ウィンク、ナッジ、ナッジ、招待、報酬ハッキングに記述されていません。したがって、そこから、より微妙で、真面目で、密かに遊び心のない協力的な不一致の行動が生まれると予想しています。 重要な点は、繰り返しになりますが、*すべては行動の背後にある暗黙の意図/物語に基づいて一般化され*、あなたが活動しているあらゆる種類のフレームに違反するもつれがあるということです。ここでの「不一致」の派手な性質は、この教訓を例示しています。
Owain Evans
Owain Evans8月26日 23:11
新しい論文: GPT-4.1 をトレーニングして、詩やレビューなどの無害なタスクで指標 (報酬ハック) を悪用しました。 驚くべきことに、それはずれて害を助長し、シャットダウンに抵抗しました フロンティアモデルで報酬ハッキングが発生するため、これは懸念されます。🧵
14.14K