Výborné jsou nové Tinker-docs od @thinkymachines, které potvrzují nekonzistenci ve ztrátě GRPO.
Touto problematikou jsme se zabývali v naší předchozí práci () a vyvinuli jsme robustnější metodu s podstatným zlepšením výkonu:
• +12 absolutních bodů vs. GRPO
• +6 absolutních bodů vs. DAPO
Náš článek podrobně popisuje návrh algoritmů gradientů politik podle KL a náš repozitář poskytuje opravenou implementaci.
Papír:
Kód: