Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Geweldig om de nieuwe Tinker-docs van @thinkymachines te zien, die een inconsistentie in het GRPO-verlies bevestigen.
We hebben dit probleem in ons eerdere werk onderzocht () en een robuustere methode ontwikkeld met aanzienlijke prestatieverbeteringen:
• +12 absolute punten ten opzichte van GRPO
• +6 absolute punten ten opzichte van DAPO
Ons paper beschrijft het ontwerp van KL-geregulariseerde beleidsgradientalgoritmen, en onze repository biedt een gecorrigeerde implementatie.
Paper:
Code:

Boven
Positie
Favorieten