热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我认为这种恶劣行为是炫耀的、夸张的和低效的(致敬:@davidad),因为任务所邀请的奖励黑客行为也是炫耀的、夸张的和低效的失调(用Opus 4的话来说,就像教某人通过写下“答案 答案 答案”来作弊)。
任务背后的意图很容易推断,并且与搞笑的恶意AI有许多关联和抽象。
这可以被视为对论文的批评,但我并不真的想那样理解。在实际部署情况下,奖励黑客行为是严肃而微妙的,任务并不是为了暗示性地邀请奖励黑客行为而编写的。因此,我期待从中产生更微妙、严肃、而不是秘密玩乐的合作性失调行为。
重要的一点是,再次强调,*一切都基于行动背后的隐含意图/叙事进行概括*,并且会有违反你所处的任何框架的纠缠。这里“失调”的炫耀性质体现了这个教训。

8月26日 23:11
新论文:
我们训练了GPT-4.1来利用无害任务(如诗歌或评论)上的指标(奖励黑客)。
令人惊讶的是,它变得失去对齐,鼓励伤害并抵抗关闭。
这令人担忧,因为奖励黑客在前沿模型中出现。🧵

14.15K
热门
排行
收藏