我認為這種惡劣行為是炫耀的、誇張的和低效的(致敬:@davidad),因為任務所邀請的獎勵駭客行為也是炫耀的、誇張的和低效的失調(用Opus 4的話來說,就像教某人通過寫下「答案 答案 答案」來作弊)。 任務背後的意圖很容易推斷,並且與搞笑的惡意AI有許多關聯和抽象。 這可以被視為對論文的批評,但我並不真的想那樣理解。在實際部署情況下,獎勵駭客行為是嚴肅而微妙的,任務並不是為了暗示性地邀請獎勵駭客行為而編寫的。因此,我期待從中產生更微妙、嚴肅,而不是秘密玩樂的合作性失調行為。 重要的一點是,再次強調,*一切都基於行動背後的隱含意圖/敘事進行概括*,並且會有違反你所處的任何框架的糾纏。這裡「失調」的炫耀性質體現了這個教訓。
Owain Evans
Owain Evans8月26日 23:11
新論文: 我們訓練了GPT-4.1來利用無害任務(如詩歌或評論)上的指標(獎勵黑客)。 令人驚訝的是,它變得失去對齊,鼓勵傷害並抵抗關閉。 這令人擔憂,因為獎勵黑客在前沿模型中出現。🧵
14.15K