Ottimo vedere i nuovi Tinker-docs di @thinkymachines, che confermano un'incoerenza nella perdita GRPO. Abbiamo esplorato questo problema nel nostro lavoro precedente () e sviluppato un metodo più robusto con sostanziali miglioramenti delle prestazioni: • +12 punti assoluti rispetto a GRPO • +6 punti assoluti rispetto a DAPO Il nostro articolo dettaglia il design degli algoritmi di policy gradient regolarizzati KL, e il nostro repository fornisce un'implementazione corretta. Articolo: Codice: