FlowRL : Distribution des Récompenses Correspondant pour LLM RL • Passage de la maximisation des récompenses → correspondance de distribution • +10,0 % par rapport à GRPO, +5,1 % par rapport à PPO en mathématiques ; gains importants en code • Minimise le KL inverse pour couvrir tous les chemins de raisonnement valides (évite l'effondrement de mode)