很高興看到 @thinkymachines 的新 Tinker-docs,這確認了 GRPO 損失中的不一致性。 我們在之前的工作中探討了這個問題 (),並開發了一種更穩健的方法,顯著提高了性能: • 相對於 GRPO 提高了 12 個絕對點 • 相對於 DAPO 提高了 6 個絕對點 我們的論文詳細說明了 KL 正則化策略梯度算法的設計,我們的庫提供了修正的實現。 論文: 代碼: