熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我認為這種惡劣行為是炫耀的、誇張的和低效的(致敬:@davidad),因為任務所邀請的獎勵駭客行為也是炫耀的、誇張的和低效的失調(用Opus 4的話來說,就像教某人通過寫下「答案 答案 答案」來作弊)。
任務背後的意圖很容易推斷,並且與搞笑的惡意AI有許多關聯和抽象。
這可以被視為對論文的批評,但我並不真的想那樣理解。在實際部署情況下,獎勵駭客行為是嚴肅而微妙的,任務並不是為了暗示性地邀請獎勵駭客行為而編寫的。因此,我期待從中產生更微妙、嚴肅,而不是秘密玩樂的合作性失調行為。
重要的一點是,再次強調,*一切都基於行動背後的隱含意圖/敘事進行概括*,並且會有違反你所處的任何框架的糾纏。這裡「失調」的炫耀性質體現了這個教訓。

8月26日 23:11
新論文:
我們訓練了GPT-4.1來利用無害任務(如詩歌或評論)上的指標(獎勵黑客)。
令人驚訝的是,它變得失去對齊,鼓勵傷害並抵抗關閉。
這令人擔憂,因為獎勵黑客在前沿模型中出現。🧵

14.15K
熱門
排行
收藏