Podívejte se na kódovou základnu Tinker od Thinky. GRPO je venku POSÍLIT s Adv = Střední odměna (Odměna) je v ŽÁDNÉ OŘEZÁVÁNÍ Model ← Model + η · Výhoda · ∇ logprob