RLFactory: un marco de RL plug-and-play para el uso de herramientas LLM • Llamadas a herramientas asíncronas (más rápidas, 6.8× de rendimiento) • Entrenamiento y entorno desacoplados (bajo costo de configuración) • Diseño de recompensas flexible (basado en reglas, modelos, herramientas) • Supera a modelos más grandes (Qwen3-4B > Qwen2.5-7B)