熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
很高興看到 @thinkymachines 的新 Tinker-docs,這確認了 GRPO 損失中的不一致性。
我們在之前的工作中探討了這個問題 (),並開發了一種更穩健的方法,顯著提高了性能:
• 相對於 GRPO 提高了 12 個絕對點
• 相對於 DAPO 提高了 6 個絕對點
我們的論文詳細說明了 KL 正則化策略梯度算法的設計,我們的庫提供了修正的實現。
論文:
代碼:

熱門
排行
收藏