GRPO損失の不一致を確認する@thinkymachinesの新しいTinker-docsを見るのは素晴らしいことです。 この問題は以前の研究()で調査し、パフォーマンスが大幅に向上したより堅牢な方法を開発しました。 • GRPO に対して +12 絶対ポイント • DAPO に対して +6 絶対ポイント 私たちの論文では、KL正則化されたポリシー勾配アルゴリズムの設計を詳細に説明しており、リポジトリは修正された実装を提供します。 紙: コード: