RLFactory : un cadre RL plug-and-play pour l'utilisation d'outils LLM • Appels d'outils asynchrones (plus rapides, 6,8× de débit) • Entraînement et environnement découplés (coût de configuration faible) • Conception de récompense flexible (règle, modèle, basée sur l'outil) • Surpasse des modèles plus grands (Qwen3-4B > Qwen2.5-7B)