Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Świetnie widzieć nowe Tinker-docs od @thinkymachines, które potwierdzają niespójność w stracie GRPO. Zbadaliśmy ten problem w naszej wcześniejszej pracy () i opracowaliśmy bardziej solidną metodę z istotnymi poprawami wydajności: • +12 punktów bezwzględnych w porównaniu do GRPO • +6 punktów bezwzględnych w porównaniu do DAPO Nasz artykuł szczegółowo opisuje projekt algorytmów gradientu polityki z regularyzacją KL, a nasze repozytorium zawiera poprawioną implementację. Artykuł: Kod:

Najlepsze

Ranking

Ulubione