FlowRL:用於LLM RL的獎勵分配匹配 • 從獎勵最大化轉向分佈匹配 • 在數學上比GRPO高出10.0%,比PPO高出5.1%;在代碼上有強勁的收益 • 最小化反向KL以覆蓋所有有效的推理路徑(避免模式崩潰)