字節跳動種子項目推出 AgentGym-RL • 首個統一的多輪代理訓練強化學習框架(無 SFT) • 在網頁、搜索、遊戲、具身和科學任務中具有模塊化、可擴展的設計 • 代理在 27 個任務上與商業模型相媲美/超越