FlowRL: Соответствие распределения вознаграждений для RL LLM • Переход от максимизации вознаграждения → соответствие распределению • +10.0% по сравнению с GRPO, +5.1% по сравнению с PPO по математике; сильные приросты в коде • Минимизирует обратный KL, чтобы охватить все допустимые пути рассуждений (избегает коллапса моды)