Excelente ver los nuevos Tinker-docs de @thinkymachines, que confirman una inconsistencia en la pérdida de GRPO. Exploramos este tema en nuestro trabajo anterior () y desarrollamos un método más sólido con mejoras sustanciales en el rendimiento: • +12 puntos absolutos frente a GRPO • +6 puntos absolutos vs. DAPO Nuestro documento detalla el diseño de algoritmos de gradiente de políticas regularizados por KL, y nuestro repositorio proporciona una implementación corregida. Papel: Código: