Чудово бачити нові Tinker-docs від @thinkymachines, які підтверджують невідповідність у втраті GRPO.
Ми досліджували це питання в нашій попередній роботі () і розробили більш надійний метод зі значним покращенням продуктивності:
• +12 абсолютних балів проти GRPO
• +6 абсолютних балів проти DAPO
У нашому документі детально описано дизайн алгоритмів градієнта регуляризованих політик KL, а наш репозиторій надає виправлену реалізацію.
Папір:
Код: