Проверьте кодовую базу Tinker от Thinky. GRPO вышел REINFORCE с Adv = Награда-среднее(Награда) в деле БЕЗ ОГРАНИЧЕНИЙ model ← model + η · преимущество · ∇ logprob