Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ottimo vedere i nuovi Tinker-docs di @thinkymachines, che confermano un'incoerenza nella perdita GRPO.
Abbiamo esplorato questo problema nel nostro lavoro precedente () e sviluppato un metodo più robusto con sostanziali miglioramenti delle prestazioni:
• +12 punti assoluti rispetto a GRPO
• +6 punti assoluti rispetto a DAPO
Il nostro articolo dettaglia il design degli algoritmi di policy gradient regolarizzati KL, e il nostro repository fornisce un'implementazione corretta.
Articolo:
Codice:

Principali
Ranking
Preferiti