Geweldig om de nieuwe Tinker-docs van @thinkymachines te zien, die een inconsistentie in het GRPO-verlies bevestigen.
We hebben dit probleem in ons eerdere werk onderzocht () en een robuustere methode ontwikkeld met aanzienlijke prestatieverbeteringen:
• +12 absolute punten ten opzichte van GRPO
• +6 absolute punten ten opzichte van DAPO
Ons paper beschrijft het ontwerp van KL-geregulariseerde beleidsgradientalgoritmen, en onze repository biedt een gecorrigeerde implementatie.
Paper:
Code: