Świetnie widzieć nowe Tinker-docs od @thinkymachines, które potwierdzają niespójność w stracie GRPO.
Zbadaliśmy ten problem w naszej wcześniejszej pracy () i opracowaliśmy bardziej solidną metodę z istotnymi poprawami wydajności:
• +12 punktów bezwzględnych w porównaniu do GRPO
• +6 punktów bezwzględnych w porównaniu do DAPO
Nasz artykuł szczegółowo opisuje projekt algorytmów gradientu polityki z regularyzacją KL, a nasze repozytorium zawiera poprawioną implementację.
Artykuł:
Kod: