Atropos v0.3 がリリースされました! 当社のRL環境フレームワークは、v0.2以降、多くのアップグレードが行われてきました。 - Atroposは、@rogershijin初の外部ベンチマークであるReward-Bench 2により、ベンチマークおよび評価フレームワークとして使用できるようになりました。 - @neurosp1keや友人による100以上の推理タスクを備えた外部環境ジムリポジトリであるReasoningGymを追加しました - @max_paperclips @intern_lmの推論ブートキャンプを統合し、RLに1000+の新しい推論タスクを追加 - @dmayhem93、Atroposのリードエンジニアは、数十のバグ修正、その他の信頼性と互換性の改善、マルチ環境のサポートの改善、CI/CDを追加しました。 - Atroposのハッカソン環境の多くは/environments/communityに統合されました - それらをすべてリストアップすると、画面スペースの大部分を占めてしまいますが、いくつかのハイライトがあります。 @JakeABoggsによるVR-CLI、Philosophy RLAIF、Adaptive LLM Teachers、WebVoyager、@halleriteによるタンパク質設計、@gabinfayによるモデルルーティング環境、リーンプルーフィングのマルチプルーフィング、キャットボットアリーナ、ポケモン対決、ポーカー、親切な医者、@khoomeikによるサンスクリット語の詩など、盛りだくさんです。 - その他の注目すべき公式にサポートされている新しい環境は次のとおりです。 環境に応じた回答形式 PydanticからJSON環境に移植された@MatternJustus作品 @natolambertと@allen_aiの作品から移植された指示フォロー レターカウンティング - 47人の新しい貢献者! ここで完全な変更ログを確認してください。
Teknium (e/λ)
Teknium (e/λ)2025年7月18日
Just merged a PR for an environment to improve LLM as a Judge as well as evaluate models on their capability of doing judgements! Did you know that all verifiable RL environments are nearly equivalent to benchmarks (and vice-versa!)? So we added an evaluate command to Atropos' base and now you can run benchmarks through Atropos environments. We got frustrated with working with so many benchmark frameworks that were outdated or unusable, so we implemented evaluation-only mode into Atropos, our RL environments framework. So our first port from outside our existing environments was @natolambert's Reward-Bench! Note: it only supports generative reward models (regular LLM Judges) at the moment. Check out the PR here:
25.09K