一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

很高興看到 @thinkymachines 的新 Tinker-docs，這確認了 GRPO 損失中的不一致性。我們在之前的工作中探討了這個問題 ()，並開發了一種更穩健的方法，顯著提高了性能： • 相對於 GRPO 提高了 12 個絕對點 • 相對於 DAPO 提高了 6 個絕對點我們的論文詳細說明了 KL 正則化策略梯度算法的設計，我們的庫提供了修正的實現。論文：代碼：