检查Thinky的Tinker代码库。 GRPO已出 REINFORCE与Adv = 奖励-均值(奖励)已入 无裁剪 model ← model + η · 优势 · ∇ logprob