FlowRL: مطابقة توزيع المكافآت ل LLM RL • التحول من تعظيم المكافآت → مطابقة التوزيع • + 10.0٪ مقابل GRPO ، + 5.1٪ مقابل PPO في الرياضيات ؛ مكاسب قوية في الكود • يقلل من KL العكسي لتغطية جميع مسارات التفكير الصالحة (يتجنب انهيار الوضع)