热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
很高兴看到@thinkymachines的新Tinker-docs,它们确认了GRPO损失中的不一致性。
我们在之前的工作中探讨了这个问题(),并开发了一种更稳健的方法,显著提高了性能:
• 相较于GRPO提高了12个绝对点
• 相较于DAPO提高了6个绝对点
我们的论文详细介绍了KL正则化策略梯度算法的设计,我们的代码库提供了修正后的实现。
论文:
代码:

热门
排行
收藏