Utmerket å se de nye Tinker-dokumentene fra @thinkymachines, som bekrefter en inkonsekvens i GRPO-tapet.
Vi utforsket dette problemet i vårt tidligere arbeid () og utviklet en mer robust metode med betydelige ytelsesforbedringer:
• +12 absolutte poeng mot GRPO
• +6 absolutte poeng mot DAPO
Artikkelen vår beskriver utformingen av KL-regulariserte policygradientalgoritmer, og depotet vårt gir en korrigert implementering.
Papir:
Kode: