Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Es ist großartig, die neuen Tinker-Dokumente von @thinkymachines zu sehen, die eine Inkonsistenz im GRPO-Verlust bestätigen.
Wir haben dieses Problem in unserer vorherigen Arbeit untersucht () und eine robustere Methode mit erheblichen Leistungsverbesserungen entwickelt:
• +12 absolute Punkte im Vergleich zu GRPO
• +6 absolute Punkte im Vergleich zu DAPO
Unser Papier beschreibt das Design von KL-regularisierten Policy-Gradient-Algorithmen, und unser Repository bietet eine korrigierte Implementierung.
Papier:
Code:

Top
Ranking
Favoriten