FlowRL: LLM RL の報酬分配マッチング • 報酬の最大化から分配マッチング→シフト • GRPO に対して +10.0%、数学で PPO に対して +5.1%。コードで大きな利益を得る - 逆KLを最小限に抑えて、すべての有効な推論パスをカバーします(モードの崩壊を回避します)。