很高兴看到@thinkymachines的新Tinker-docs,它们确认了GRPO损失中的不一致性。 我们在之前的工作中探讨了这个问题(),并开发了一种更稳健的方法,显著提高了性能: • 相较于GRPO提高了12个绝对点 • 相较于DAPO提高了6个绝对点 我们的论文详细介绍了KL正则化策略梯度算法的设计,我们的代码库提供了修正后的实现。 论文: 代码: