Excelente ver os novos Tinker-docs da @thinkymachines, que confirmam uma inconsistência na perda de GRPO. Exploramos essa questão em nosso trabalho anterior () e desenvolvemos um método mais robusto com melhorias substanciais de desempenho: • +12 pontos absolutos vs. GRPO • +6 pontos absolutos vs. DAPO Nosso artigo detalha o design de algoritmos de gradiente de política regularizados por KL e nosso repositório fornece uma implementação corrigida. Papel: Código: