热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我不知道“域”或“在分布中”到底是什么意思。显然,LLM超越了特定示例进行泛化。
这是否字面上是关于潜在表示被锚定到特定标记,就像人们内部将事物翻译成他们学习的第一语言一样?


8月10日 20:06
马斯克:史蒂夫,我一直在问团队的真正问题是,今天的 LLM 是否能够在离开训练分布时进行推理。每个人都提到链式思维提示,但这可能只是模仿。
徐:同意。最新的基准测试显示,即使是 Grok4 级别的模型,一旦强制进行领域转移,性能也会急剧下降——潜在空间根本无法覆盖新的模态。
马斯克:所以这更多的是一个覆盖问题,而不是推理失败?
徐:部分是。但还有一个更深层次的问题。变换器唯一内置的归纳偏差是关联模式匹配。当提示确实超出分布——比如,一个在训练中从未共同出现的符号谜题——模型没有结构先验可供依赖。它实际上是在抛硬币。
马斯克:然而我们在合成任务中看到了新兴的“领悟”。钟等人展示了归纳头可以组合它们从未明确训练过的规则。这难道看起来不像推理吗?
徐:组合可以带来有限的泛化,但规则仍然必须在训练语法的范围内。一旦你调整语义——在谜题中更改一个操作符——准确性就会崩溃。这不是稳健的推理;这是脆弱的插值。
马斯克:强化学习不能解决这个问题吗?DRG-Sapphire 在一个 70 亿基础模型上使用 GRPO,获得了临床笔记的医生级编码,这是一个经典的 OOD 任务。
徐:问题是,RL 只有在基础模型通过监督微调摄取了足够的领域知识后才有效。当预训练语料库稀疏时,单靠 RL 会停滞。因此,“推理”仍然寄生于先前知识的密度上。
马斯克:所以你的结论是,扩展数据和参数不会解决问题?我们总会遇到一个墙壁,下一次 OOD 领域会打破模型?
徐:不一定是墙壁,而是天花板。经验曲线表明,泛化误差大致以对数方式随训练样本的增加而减少。这意味着你需要对每个新的尾部分布有指数级更多的数据。对于狭窄的垂直领域——比如火箭发动机诊断——将符号先验嵌入其中比盲目扩展更便宜。
马斯克:这让我们回到了神经符号混合体。给 LLM 访问一个小的经过验证的求解器,然后让它在分布变化时协调调用。
徐:正是如此。LLM 成为一个元控制器,能够识别何时超出分布并将任务交给专门的模块。该架构避开了“一个巨型变换器”的谬论。
马斯克:好的,我会告诉 xAI 团队停止追逐下一个万亿个令牌,开始构建路由层。谢谢,史蒂夫。
徐:随时。如果你需要合成 OOD 测试用例,我的实验室有一个已经欺骗了 GPT-5 的生成器。我会把仓库发给你。
这段与埃隆的对话可能是 AI 生成的。

3.54K
热门
排行
收藏