FlowRL: Correspondência de distribuição de recompensa para LLM RL • Mudanças da maximização da recompensa → correspondência de distribuição • +10,0% vs GRPO, +5,1% vs PPO em matemática; Fortes ganhos no código • Minimiza KL reverso para cobrir todos os caminhos de raciocínio válidos (evita o colapso do modo)