FlowRL: Potrivirea distribuției recompenselor pentru LLM RL • Schimbări de la maximizarea recompenselor → potrivirea distribuției • +10,0% față de GRPO, +5,1% față de PPO la matematică; Câștiguri puternice pe cod • Minimizează KL invers pentru a acoperi toate căile de raționament valide (evită colapsul modului)