一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Atropos v0.3 現已推出！我們的 RL 環境框架自 v0.2 以來經歷了許多升級 - 一些亮點： - Atropos 現在可以作為基準測試和評估框架，由 @rogershijin 使用，並推出了我們的第一個外部基準測試，Reward-Bench 2！ - 新增了 Reasoning Gym，這是一個外部環境健身房庫，由 @neurosp1ke 和朋友們移植到 Atropos，包含超過 100 個推理任務。 - @max_paperclips 整合了 @intern_lm 的推理訓練營，為 RL 新增了 1000 多個推理任務。 - Atropos 的首席工程師 @dmayhem93 增加了數十個錯誤修復和其他可靠性及相容性改進，更好地支持多環境和 CI/CD。 - 許多 Atropos 黑客松環境已合併到 /environments/community - 列出所有環境會佔用大部分螢幕空間，但一些亮點包括：由 @JakeABoggs 開發的 VR-CLI、哲學 RLAIF、自適應 LLM 教師、WebVoyager、由 @hallerite 開發的蛋白質設計、由 @gabinfay 開發的模型路由環境、多個精益證明、貓機器人競技場、寶可夢對戰、撲克、樂於助人的醫生、由 @khoomeik 創作的梵文詩歌等等！ - 其他值得注意的官方支持新環境包括：環境的回答格式從 @MatternJustus 的工作移植的 Pydantic 到 JSON 環境從 @natolambert 和 @allen_ai 的工作移植的指令跟隨字母計數 - 47 位全新貢獻者！在這裡查看完整的變更日誌：

25.1K