Hienoa nähdä uudet Tinker-dokumentit vuodelta @thinkymachines, jotka vahvistavat epäjohdonmukaisuuden GRPO-tappiossa.
Tutkimme tätä asiaa aiemmassa työssämme () ja kehitimme vankemman menetelmän, jossa suorituskyky on parantunut merkittävästi:
• +12 absoluuttista pistettä vs. GRPO
• +6 absoluuttista pistettä DAPO:ta vastaan
Artikkelissamme kerrotaan yksityiskohtaisesti KL-regularisoitujen politiikkagradienttialgoritmien suunnittelusta, ja arkistomme tarjoaa korjatun toteutuksen.
Paperi:
Koodi: