Hienoa nähdä uudet Tinker-dokumentit vuodelta @thinkymachines, jotka vahvistavat epäjohdonmukaisuuden GRPO-tappiossa. Tutkimme tätä asiaa aiemmassa työssämme () ja kehitimme vankemman menetelmän, jossa suorituskyky on parantunut merkittävästi: • +12 absoluuttista pistettä vs. GRPO • +6 absoluuttista pistettä DAPO:ta vastaan Artikkelissamme kerrotaan yksityiskohtaisesti KL-regularisoitujen politiikkagradienttialgoritmien suunnittelusta, ja arkistomme tarjoaa korjatun toteutuksen. Paperi: Koodi: