Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hienoa nähdä uudet Tinker-dokumentit vuodelta @thinkymachines, jotka vahvistavat epäjohdonmukaisuuden GRPO-tappiossa.
Tutkimme tätä asiaa aiemmassa työssämme () ja kehitimme vankemman menetelmän, jossa suorituskyky on parantunut merkittävästi:
• +12 absoluuttista pistettä vs. GRPO
• +6 absoluuttista pistettä DAPO:ta vastaan
Artikkelissamme kerrotaan yksityiskohtaisesti KL-regularisoitujen politiikkagradienttialgoritmien suunnittelusta, ja arkistomme tarjoaa korjatun toteutuksen.
Paperi:
Koodi:

Johtavat
Rankkaus
Suosikit