Świetnie widzieć nowe Tinker-docs od @thinkymachines, które potwierdzają niespójność w stracie GRPO. Zbadaliśmy ten problem w naszej wcześniejszej pracy () i opracowaliśmy bardziej solidną metodę z istotnymi poprawami wydajności: • +12 punktów bezwzględnych w porównaniu do GRPO • +6 punktów bezwzględnych w porównaniu do DAPO Nasz artykuł szczegółowo opisuje projekt algorytmów gradientu polityki z regularyzacją KL, a nasze repozytorium zawiera poprawioną implementację. Artykuł: Kod: