Atropos v0.3 現已推出! 我們的 RL 環境框架自 v0.2 以來經歷了許多升級 - 一些亮點: - Atropos 現在可以作為基準測試和評估框架,由 @rogershijin 使用,並推出了我們的第一個外部基準測試,Reward-Bench 2! - 新增了 Reasoning Gym,這是一個外部環境健身房庫,由 @neurosp1ke 和朋友們移植到 Atropos,包含超過 100 個推理任務。 - @max_paperclips 整合了 @intern_lm 的推理訓練營,為 RL 新增了 1000 多個推理任務。 - Atropos 的首席工程師 @dmayhem93 增加了數十個錯誤修復和其他可靠性及相容性改進,更好地支持多環境和 CI/CD。 - 許多 Atropos 黑客松環境已合併到 /environments/community - 列出所有環境會佔用大部分螢幕空間,但一些亮點包括: 由 @JakeABoggs 開發的 VR-CLI、哲學 RLAIF、自適應 LLM 教師、WebVoyager、由 @hallerite 開發的蛋白質設計、由 @gabinfay 開發的模型路由環境、多個精益證明、貓機器人競技場、寶可夢對戰、撲克、樂於助人的醫生、由 @khoomeik 創作的梵文詩歌等等! - 其他值得注意的官方支持新環境包括: 環境的回答格式 從 @MatternJustus 的工作移植的 Pydantic 到 JSON 環境 從 @natolambert 和 @allen_ai 的工作移植的指令跟隨 字母計數 - 47 位全新貢獻者! 在這裡查看完整的變更日誌:
Teknium (e/λ)
Teknium (e/λ)2025年7月18日
剛剛合併了一個環境的 PR,以改進 LLM 作為法官,並評估模型的判斷能力! 您是否知道所有可驗證的 RL 環境幾乎等同於基準測試(反之亦然!因此,我們在 Atropos 的基礎中添加了一個評估命令,現在您可以在 Atropos 環境中運行基準測試。 我們對使用如此多過時或無法使用的基準測試框架感到沮喪,因此我們在我們的 RL 環境框架 Atropos 中實施了僅評估模式。 因此,我們從現有環境之外的第一個移植是 @natolambert 的 Reward-Bench! 注意:目前僅支援生成式獎勵模型(常規 LLM 評委)。 在這裡查看公關:
25.1K