Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Чудово бачити нові Tinker-docs від @thinkymachines, які підтверджують невідповідність у втраті GRPO.
Ми досліджували це питання в нашій попередній роботі () і розробили більш надійний метод зі значним покращенням продуктивності:
• +12 абсолютних балів проти GRPO
• +6 абсолютних балів проти DAPO
У нашому документі детально описано дизайн алгоритмів градієнта регуляризованих політик KL, а наш репозиторій надає виправлену реалізацію.
Папір:
Код:

Найкращі
Рейтинг
Вибране