Utmerket å se de nye Tinker-dokumentene fra @thinkymachines, som bekrefter en inkonsekvens i GRPO-tapet. Vi utforsket dette problemet i vårt tidligere arbeid () og utviklet en mer robust metode med betydelige ytelsesforbedringer: • +12 absolutte poeng mot GRPO • +6 absolutte poeng mot DAPO Artikkelen vår beskriver utformingen av KL-regulariserte policygradientalgoritmer, og depotet vårt gir en korrigert implementering. Papir: Kode: