Чудово бачити нові Tinker-docs від @thinkymachines, які підтверджують невідповідність у втраті GRPO. Ми досліджували це питання в нашій попередній роботі () і розробили більш надійний метод зі значним покращенням продуктивності: • +12 абсолютних балів проти GRPO • +6 абсолютних балів проти DAPO У нашому документі детально описано дизайн алгоритмів градієнта регуляризованих політик KL, а наш репозиторій надає виправлену реалізацію. Папір: Код: