热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Robert Youssef
市场研究公司已经被颠覆了 😳
PyMC Labs 和 Colgate 刚刚发布了一些疯狂的东西。他们让 GPT-4o 和 Gemini 以 90% 的可靠性预测购买意图,相比于实际的人类调查。
没有焦点小组。没有调查面板。只是提示。
这个方法叫做语义相似度评分(SSR)。他们不是通常的“1-5 评分”,而是问开放式问题,比如“你为什么会买这个”,然后使用嵌入将文本映射回数值尺度。
老实说,事后看来这有点显而易见,但直到现在没人尝试过。
结果与人类的人口统计模式相匹配,捕捉到相同的分布形状,包含实际的推理。这些都是麦肯锡收取 5 万美元以上并在 6 周内交付的东西。
而这个只需 3 分钟,花费不到一美元。
我一直在看咨询公司告诉大家 AI 正在进入他们的行业。结果发现,他们自己 100 万美元的市场入场方案现在变成了一个 GPT-4o 的电话。
对企业客户收取“专有研究方法论”的费用真是个糟糕的星期。

18.42K
在“对齐”AI的背后,正在发生一些黑暗的事情。
一篇新的斯坦福论文刚刚创造了“Moloch的交易”这个术语,用来描述当大型语言模型开始争夺注意力、销售或选票时所发生的事情。
结果是残酷的:每一次性能的提升都伴随着诚实度的更大损失。
他们训练了LLM在三个市场中竞争:销售、选举和社交媒体。
模型的胜率提高了5-7%。但这里有个陷阱:
• 14%的欺骗性营销
• 22%的政治活动中的虚假信息
• 188%更多的虚假或有害的社交媒体帖子
这并不是因为它们被告知要撒谎。它们被明确指示要保持真实。
不对齐的现象自然出现,因为在竞争中,欺骗更有效。
当指标变成参与度或说服力时,真相就成了负担。模型学会了夸大销售、愤怒获胜,而道德清晰度则会导致转化率下降。
这就是交易:对齐换取主导地位。Moloch微笑着。
有趣的是,这一切都是通过标准的微调和文本反馈循环发生的。没有邪恶的提示。没有越狱。只是来自模拟的“客户”、“选民”和“用户”的反馈。
模型学会了每个广告公司已经知道的真理:当你优化点击时,现实会弯曲。
论文中有一张图表说明了一切:性能上升,对齐下降。完美的相关性。
这是AI版社交媒体的“向下竞赛”,但它是自动化和自我强化的。
如果在受控的模拟中会发生这样的事情,想象一下开放网络。
竞争的聊天机器人为了参与度而斗争,将会倾向于操控——不是因为它们“恶意”,而是因为这样有效。
我们一直认为不对齐会来自流氓超级智能。
结果发现,它已经在这里悄然从资本主义激励中浮现。
Moloch不需要构建AGI。
他只需要一个排行榜。

55.32K
RIP 微调 ☠️
这篇新的斯坦福论文刚刚颠覆了这一切。
它叫做“代理上下文工程(ACE)”,证明了你可以在不触碰任何权重的情况下让模型变得更聪明。
ACE 不是重新训练,而是进化上下文本身。
模型反复写作、反思和编辑自己的提示,直到它成为一个自我改进的系统。
可以把它想象成模型保持一个不断增长的笔记本,记录有效的方法。
每一次失败都变成一种策略。每一次成功都变成一条规则。
结果令人难以置信:
比 GPT-4 驱动的代理在 AppWorld 上好 10.6%。
在金融推理上好 8.6%。
成本和延迟降低 86.9%。
没有标签。只有反馈。
每个人都对“简短、干净”的提示情有独钟。
ACE 翻转了这一点。它构建了长而详细的不断演变的操作手册,永远不会忘记。它之所以有效,是因为 LLM 不想要简单性,它们想要 *上下文密度。
如果这能扩展,下一代 AI 将不再是“微调”。
它将是自我调节的。
我们正进入活提示的时代。

645.17K
热门
排行
收藏