Verifique la base de código de Tinker de Thinky. GRPO está fuera REFORZAR con Adv = Reward-mean(Reward) está en SIN RECORTE modelo ← modelo + η · ventaja · ∇ logprob