热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
腾讯HY研究博客的最新动态:桥接LLM基础设施和算法开发。🚀
我们正在开源GradLoc:一个白盒诊断工具,可以在O(log N)时间内追踪梯度峰值到确切的罪魁祸首令牌。
扩展RLVR不再是与“黑箱”梯度峰值的斗争。我们正在从启发式的试错法转向确定性的工程诊断。
博客:
GitHub:


🔍 从全球峰值到单个代币
标准监控只能告诉你何时发生梯度峰值。GradLoc 告诉你在哪里。通过使用分布式二分搜索,它可以隔离导致峰值的特定代币,且几乎没有摊销开销。它是 LLM 训练的 "始终在线" 调试器。
💡 新发现的崩溃模式
并不总是 "脏数据" 或 "训练-推理不匹配"。GradLoc 揭示了分层梯度异质性:令牌可以具有 "安全" 的重要性采样 (IS) 比率,但仍然会导致特定层爆炸,而其他层保持稳定。标准的全局裁剪工具过于粗糙。
🛡️ 解决方案:LayerClip
为了解决层级梯度异质性,我们提出了层级梯度裁剪(Layerwise Gradient Clipping)。与统一的全局限制不同,LayerClip 根据局部层统计数据应用自适应约束。这种细粒度的控制在标准方法失效的情况下稳定了 RLVR 训练。
🚀 未来工作
RLVR 需要更好的工程可观察性,以便进行更深入的理解和分析。我们正在开源 GradLoc,以降低细粒度诊断的门槛。我们希望这能帮助社区深入了解工程的“黑箱”,并从基本原则出发,朝着优化的方向迈进。
1.87K
热门
排行
收藏
