RLFactory: un cadru RL plug-and-play pentru utilizarea instrumentelor LLM • Apeluri asincrone ale instrumentelor (mai rapid, debit de 6,8×) • Instruire și mediu decuplat (cost redus de instalare) • Design flexibil de recompensă (regulă, model, bazat pe instrumente) • Depășește modelele mai mari (Qwen3-4B > Qwen2.5-7B)