Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sangat bagus untuk melihat Tinker-docs baru dari @thinkymachines, yang mengkonfirmasi inkonsistensi dalam kekalahan GRPO.
Kami mengeksplorasi masalah ini dalam pekerjaan kami sebelumnya () dan mengembangkan metode yang lebih kuat dengan peningkatan kinerja yang substansial:
• +12 poin absolut vs. GRPO
• +6 poin absolut vs. DAPO
Makalah kami merinci desain algoritma gradien kebijakan yang diregulasi KL, dan repositori kami menyediakan implementasi yang dikoreksi.
Kertas:
Kode:

Teratas
Peringkat
Favorit