Controlla il codice sorgente di Tinker di Thinky. GRPO è fuori REINFORCE con Adv = Reward-mean(Reward) è dentro NESSUN CLIPPING model ← model + η · advantage · ∇ logprob