RLFactory: et plug-and-play RL-rammeverk for bruk av LLM-verktøy • Asynkrone verktøyanrop (raskere, 6,8 × gjennomstrømning) • Frakoblet opplæring og miljø (lave oppsettskostnader) • Fleksibel belønningsdesign (regel, modell, verktøybasert) • Utkonkurrerer større modeller (Qwen3-4B > Qwen2.5-7B)