Sangat bagus untuk melihat Tinker-docs baru dari @thinkymachines, yang mengkonfirmasi inkonsistensi dalam kekalahan GRPO.
Kami mengeksplorasi masalah ini dalam pekerjaan kami sebelumnya () dan mengembangkan metode yang lebih kuat dengan peningkatan kinerja yang substansial:
• +12 poin absolut vs. GRPO
• +6 poin absolut vs. DAPO
Makalah kami merinci desain algoritma gradien kebijakan yang diregulasi KL, dan repositori kami menyediakan implementasi yang dikoreksi.
Kertas:
Kode: