RLFactory: ett plug-and-play RL-ramverk för användning av LLM-verktyg • Asynkrona verktygsanrop (snabbare, 6,8 × genomströmning) • Frikopplad utbildning och miljö (låg installationskostnad) • Flexibel belöningsdesign (regel, modell, verktygsbaserad) • Presterar bättre än större modeller (Qwen3-4B > Qwen2.5-7B)