檢查 Thinky 的 Tinker 代碼庫。 GRPO 已經淘汰 REINFORCE 與 Adv = Reward-mean(Reward) 已經加入 不進行裁剪 model ← model + η · advantage · ∇ logprob