一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

來自騰訊 HY 研究部落格的最新消息：橋接 LLM 基礎設施和算法開發。🚀 我們正在開源 GradLoc：一個白盒診斷工具，可以在 O(log N) 時間內追蹤梯度尖峰到確切的罪魁禍首標記。擴展 RLVR 不再需要與 "黑盒" 梯度尖峰作鬥爭。從啟發式的試錯法轉向確定性的工程診斷。部落格： GitHub：

🔍 從全球尖峰到單一代幣標準監控僅告訴您何時發生梯度尖峰。GradLoc 告訴您在哪裡。它使用分佈式二進位搜尋，隔離出導致尖峰的特定代幣，並且幾乎沒有攤銷開銷。這是一個針對 LLM 訓練的「隨時開啟」除錯工具。

💡 新的崩潰模式被發現並不總是「髒數據」或「訓練-推斷不匹配」。GradLoc 揭示了層級梯度異質性：標記可以有「安全」的重要性抽樣 (IS) 比率，但仍然會導致特定層爆炸，而其他層則保持穩定。標準的全局裁剪對此來說是一種過於粗糙的工具。

🛡️ 解決方案：LayerClip 為了解決層級梯度異質性，我們提出了層級梯度裁剪。LayerClip 根據局部層統計數據應用自適應約束，而不是統一的全局限制。這種細緻的控制穩定了 RLVR 訓練，而標準方法則失敗。

🚀 未來工作 RLVR 需要更好的工程可觀察性，以便進行更深入的理解和分析。我們正在開源 GradLoc，以降低細粒度診斷的門檻。我們希望這能幫助社區深入了解工程的 "黑箱"，並從基本原則出發推進優化。

1.64K