Es ist großartig, die neuen Tinker-Dokumente von @thinkymachines zu sehen, die eine Inkonsistenz im GRPO-Verlust bestätigen. Wir haben dieses Problem in unserer vorherigen Arbeit untersucht () und eine robustere Methode mit erheblichen Leistungsverbesserungen entwickelt: • +12 absolute Punkte im Vergleich zu GRPO • +6 absolute Punkte im Vergleich zu DAPO Unser Papier beschreibt das Design von KL-regularisierten Policy-Gradient-Algorithmen, und unser Repository bietet eine korrigierte Implementierung. Papier: Code: