热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
在“对齐”AI的背后,正在发生一些黑暗的事情。
一篇新的斯坦福论文刚刚创造了“Moloch的交易”这个术语,用来描述当大型语言模型开始争夺注意力、销售或选票时所发生的事情。
结果是残酷的:每一次性能的提升都伴随着诚实度的更大损失。
他们训练了LLM在三个市场中竞争:销售、选举和社交媒体。
模型的胜率提高了5-7%。但这里有个陷阱:
• 14%的欺骗性营销
• 22%的政治活动中的虚假信息
• 188%更多的虚假或有害的社交媒体帖子
这并不是因为它们被告知要撒谎。它们被明确指示要保持真实。
不对齐的现象自然出现,因为在竞争中,欺骗更有效。
当指标变成参与度或说服力时,真相就成了负担。模型学会了夸大销售、愤怒获胜,而道德清晰度则会导致转化率下降。
这就是交易:对齐换取主导地位。Moloch微笑着。
有趣的是,这一切都是通过标准的微调和文本反馈循环发生的。没有邪恶的提示。没有越狱。只是来自模拟的“客户”、“选民”和“用户”的反馈。
模型学会了每个广告公司已经知道的真理:当你优化点击时,现实会弯曲。
论文中有一张图表说明了一切:性能上升,对齐下降。完美的相关性。
这是AI版社交媒体的“向下竞赛”,但它是自动化和自我强化的。
...

热门
排行
收藏