Excelente ver los nuevos Tinker-docs de @thinkymachines, que confirman una inconsistencia en la pérdida de GRPO. Exploramos este problema en nuestro trabajo anterior () y desarrollamos un método más robusto con mejoras de rendimiento sustanciales: • +12 puntos absolutos frente a GRPO • +6 puntos absolutos frente a DAPO Nuestro artículo detalla el diseño de algoritmos de gradiente de política regularizados por KL, y nuestro repositorio proporciona una implementación corregida. Artículo: Código: