一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

很高兴看到@thinkymachines的新Tinker-docs，它们确认了GRPO损失中的不一致性。我们在之前的工作中探讨了这个问题()，并开发了一种更稳健的方法，显著提高了性能： • 相较于GRPO提高了12个绝对点 • 相较于DAPO提高了6个绝对点我们的论文详细介绍了KL正则化策略梯度算法的设计，我们的代码库提供了修正后的实现。论文：代码：