Es ist großartig, die neuen Tinker-Dokumente von @thinkymachines zu sehen, die eine Inkonsistenz im GRPO-Verlust bestätigen.
Wir haben dieses Problem in unserer vorherigen Arbeit untersucht () und eine robustere Methode mit erheblichen Leistungsverbesserungen entwickelt:
• +12 absolute Punkte im Vergleich zu GRPO
• +6 absolute Punkte im Vergleich zu DAPO
Unser Papier beschreibt das Design von KL-regularisierten Policy-Gradient-Algorithmen, und unser Repository bietet eine korrigierte Implementierung.
Papier:
Code: