RLFactory: إطار عمل RL للتوصيل والتشغيل لاستخدام أداة LLM • مكالمات الأداة غير المتزامنة (أسرع ، 6.8× إنتاجية) • التدريب والبيئة المنفصلة (تكلفة إعداد منخفضة) • تصميم مكافأة مرن (قاعدة ، نموذج ، قائم على الأدوات) • يتفوق على الموديلات الأكبر حجما (Qwen3-4B > Qwen2.5-7B)