RLFactory: uma estrutura RL plug-and-play para uso de ferramentas LLM • Chamadas de ferramentas assíncronas (mais rápidas, 6.8× de throughput) • Treinamento e ambiente desacoplados (baixo custo de configuração) • Design de recompensa flexível (baseado em regras, modelos, ferramentas) • Supera modelos maiores (Qwen3-4B > Qwen2.5-7B)