FlowRL: Belöningsfördelningsmatchning för LLM RL • Skiftar från belöningsmaximering → distributionsmatchning • +10,0 % jämfört med GRPO, +5,1 % jämfört med PPO på matematik; Starka vinster på kod • Minimerar omvänd KL för att täcka alla giltiga resonemangsvägar (undviker lägeskollaps)