Geweldig om de nieuwe Tinker-docs van @thinkymachines te zien, die een inconsistentie in het GRPO-verlies bevestigen. We hebben dit probleem in ons eerdere werk onderzocht () en een robuustere methode ontwikkeld met aanzienlijke prestatieverbeteringen: • +12 absolute punten ten opzichte van GRPO • +6 absolute punten ten opzichte van DAPO Ons paper beschrijft het ontwerp van KL-geregulariseerde beleidsgradientalgoritmen, en onze repository biedt een gecorrigeerde implementatie. Paper: Code: