RLFactory: elastyczna ramka RL do użycia narzędzi LLM • Asynchroniczne wywołania narzędzi (szybsze, 6.8× wydajności) • Oddzielone szkolenie i środowisko (niski koszt konfiguracji) • Elastyczny projekt nagród (na podstawie reguł, modeli, narzędzi) • Przewyższa większe modele (Qwen3-4B > Qwen2.5-7B)