Excelente ver os novos Tinker-docs da @thinkymachines, que confirmam uma inconsistência na perda do GRPO. Explorámos este problema no nosso trabalho anterior () e desenvolvemos um método mais robusto com melhorias de desempenho substanciais: • +12 pontos absolutos em relação ao GRPO • +6 pontos absolutos em relação ao DAPO O nosso artigo detalha o design de algoritmos de gradiente de política regularizados por KL, e o nosso repositório fornece uma implementação corrigida. Artigo: Código: