熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
來自騰訊 HY 研究部落格的最新消息:橋接 LLM 基礎設施和算法開發。🚀
我們正在開源 GradLoc:一個白盒診斷工具,可以在 O(log N) 時間內追蹤梯度尖峰到確切的罪魁禍首標記。
擴展 RLVR 不再需要與 "黑盒" 梯度尖峰作鬥爭。從啟發式的試錯法轉向確定性的工程診斷。
部落格:
GitHub:


🔍 從全球尖峰到單一代幣
標準監控僅告訴您何時發生梯度尖峰。GradLoc 告訴您在哪裡。它使用分佈式二進位搜尋,隔離出導致尖峰的特定代幣,並且幾乎沒有攤銷開銷。這是一個針對 LLM 訓練的「隨時開啟」除錯工具。
💡 新的崩潰模式被發現
並不總是「髒數據」或「訓練-推斷不匹配」。GradLoc 揭示了層級梯度異質性:標記可以有「安全」的重要性抽樣 (IS) 比率,但仍然會導致特定層爆炸,而其他層則保持穩定。標準的全局裁剪對此來說是一種過於粗糙的工具。
🛡️ 解決方案:LayerClip
為了解決層級梯度異質性,我們提出了層級梯度裁剪。LayerClip 根據局部層統計數據應用自適應約束,而不是統一的全局限制。這種細緻的控制穩定了 RLVR 訓練,而標準方法則失敗。
🚀 未來工作
RLVR 需要更好的工程可觀察性,以便進行更深入的理解和分析。我們正在開源 GradLoc,以降低細粒度診斷的門檻。我們希望這能幫助社區深入了解工程的 "黑箱",並從基本原則出發推進優化。
1.64K
熱門
排行
收藏
