Sangat bagus untuk melihat Tinker-docs baru dari @thinkymachines, yang mengkonfirmasi inkonsistensi dalam kekalahan GRPO. Kami mengeksplorasi masalah ini dalam pekerjaan kami sebelumnya () dan mengembangkan metode yang lebih kuat dengan peningkatan kinerja yang substansial: • +12 poin absolut vs. GRPO • +6 poin absolut vs. DAPO Makalah kami merinci desain algoritma gradien kebijakan yang diregulasi KL, dan repositori kami menyediakan implementasi yang dikoreksi. Kertas: Kode: