Utmärkt att se de nya Tinker-dokumenten från @thinkymachines, som bekräftar en inkonsekvens i GRPO-förlusten. Vi utforskade detta problem i vårt tidigare arbete () och utvecklade en mer robust metod med betydande prestandaförbättringar: • +12 absoluta poäng mot GRPO • +6 absoluta poäng mot DAPO Vårt dokument beskriver utformningen av KL-regulariserade policygradientalgoritmer, och vårt arkiv ger en korrigerad implementering. Papper: Kod: