Excelent pentru a vedea noile documentare Tinker din @thinkymachines, care confirmă o inconsecvență în pierderea GRPO. Am explorat această problemă în lucrările noastre anterioare () și am dezvoltat o metodă mai robustă cu îmbunătățiri substanțiale ale performanței: • +12 puncte absolute vs. GRPO • +6 puncte absolute vs. DAPO Lucrarea noastră detaliază designul algoritmilor de gradient de politici regularizați de KL, iar depozitul nostru oferă o implementare corectată. Hârtie: Cod: