Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Świetnie widzieć nowe Tinker-docs od @thinkymachines, które potwierdzają niespójność w stracie GRPO.
Zbadaliśmy ten problem w naszej wcześniejszej pracy () i opracowaliśmy bardziej solidną metodę z istotnymi poprawami wydajności:
• +12 punktów bezwzględnych w porównaniu do GRPO
• +6 punktów bezwzględnych w porównaniu do DAPO
Nasz artykuł szczegółowo opisuje projekt algorytmów gradientu polityki z regularyzacją KL, a nasze repozytorium zawiera poprawioną implementację.
Artykuł:
Kod:

Najlepsze
Ranking
Ulubione