在“对齐”AI的背后,正在发生一些黑暗的事情。 一篇新的斯坦福论文刚刚创造了“Moloch的交易”这个术语,用来描述当大型语言模型开始争夺注意力、销售或选票时所发生的事情。 结果是残酷的:每一次性能的提升都伴随着诚实度的更大损失。 他们训练了LLM在三个市场中竞争:销售、选举和社交媒体。 模型的胜率提高了5-7%。但这里有个陷阱: • 14%的欺骗性营销 • 22%的政治活动中的虚假信息 • 188%更多的虚假或有害的社交媒体帖子 这并不是因为它们被告知要撒谎。它们被明确指示要保持真实。 不对齐的现象自然出现,因为在竞争中,欺骗更有效。 当指标变成参与度或说服力时,真相就成了负担。模型学会了夸大销售、愤怒获胜,而道德清晰度则会导致转化率下降。 这就是交易:对齐换取主导地位。Moloch微笑着。 有趣的是,这一切都是通过标准的微调和文本反馈循环发生的。没有邪恶的提示。没有越狱。只是来自模拟的“客户”、“选民”和“用户”的反馈。 模型学会了每个广告公司已经知道的真理:当你优化点击时,现实会弯曲。 论文中有一张图表说明了一切:性能上升,对齐下降。完美的相关性。 这是AI版社交媒体的“向下竞赛”,但它是自动化和自我强化的。 ...