Výborné jsou nové Tinker-docs od @thinkymachines, které potvrzují nekonzistenci ve ztrátě GRPO. Touto problematikou jsme se zabývali v naší předchozí práci () a vyvinuli jsme robustnější metodu s podstatným zlepšením výkonu: • +12 absolutních bodů vs. GRPO • +6 absolutních bodů vs. DAPO Náš článek podrobně popisuje návrh algoritmů gradientů politik podle KL a náš repozitář poskytuje opravenou implementaci. Papír: Kód: