Sjekk Thinkys Tinker-kodebase. GRPO er ute FORSTERK med Adv = Belønningsmiddel(Belønning) er i INGEN KLIPPING modell ← modell + η · Fordel · ∇ logprob