FlowRL: Matching av belønningsdistribusjon for LLM RL • Skifter fra belønningsmaksimering → distribusjonsmatching • +10.0 % mot GRPO, +5.1 % mot PPO på matematikk; Sterke gevinster på kode • Minimerer omvendt KL for å dekke alle gyldige resonneringsveier (unngår moduskollaps)