FlowRL: Distribución de Recompensas para RL de LLM • Cambios de maximización de recompensas → coincidencia de distribuciones • +10.0% frente a GRPO, +5.1% frente a PPO en matemáticas; fuertes ganancias en código • Minimiza KL inverso para cubrir todos los caminos de razonamiento válidos (evita el colapso de modos)