字节跳动种子项目推出 AgentGym-RL • 首个统一的多轮代理训练强化学习框架(无 SFT) • 在网页、搜索、游戏、具身和科学任务中具有模块化、可扩展的设计 • 代理在 27 个任务上与商业模型相媲美/超越