Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Utmerket å se de nye Tinker-dokumentene fra @thinkymachines, som bekrefter en inkonsekvens i GRPO-tapet.
Vi utforsket dette problemet i vårt tidligere arbeid () og utviklet en mer robust metode med betydelige ytelsesforbedringer:
• +12 absolutte poeng mot GRPO
• +6 absolutte poeng mot DAPO
Artikkelen vår beskriver utformingen av KL-regulariserte policygradientalgoritmer, og depotet vårt gir en korrigert implementering.
Papir:
Kode:

Topp
Rangering
Favoritter