來自騰訊 HY 研究部落格的最新消息:橋接 LLM 基礎設施和算法開發。🚀   我們正在開源 GradLoc:一個白盒診斷工具,可以在 O(log N) 時間內追蹤梯度尖峰到確切的罪魁禍首標記。   擴展 RLVR 不再需要與 "黑盒" 梯度尖峰作鬥爭。從啟發式的試錯法轉向確定性的工程診斷。   部落格: GitHub:
🔍 從全球尖峰到單一代幣   標準監控僅告訴您何時發生梯度尖峰。GradLoc 告訴您在哪裡。它使用分佈式二進位搜尋,隔離出導致尖峰的特定代幣,並且幾乎沒有攤銷開銷。這是一個針對 LLM 訓練的「隨時開啟」除錯工具。
💡 新的崩潰模式被發現   並不總是「髒數據」或「訓練-推斷不匹配」。GradLoc 揭示了層級梯度異質性:標記可以有「安全」的重要性抽樣 (IS) 比率,但仍然會導致特定層爆炸,而其他層則保持穩定。標準的全局裁剪對此來說是一種過於粗糙的工具。
🛡️ 解決方案:LayerClip   為了解決層級梯度異質性,我們提出了層級梯度裁剪。LayerClip 根據局部層統計數據應用自適應約束,而不是統一的全局限制。這種細緻的控制穩定了 RLVR 訓練,而標準方法則失敗。
🚀 未來工作   RLVR 需要更好的工程可觀察性,以便進行更深入的理解和分析。我們正在開源 GradLoc,以降低細粒度診斷的門檻。我們希望這能幫助社區深入了解工程的 "黑箱",並從基本原則出發推進優化。
1.64K