トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
推論モデルにおける思考効率の測定:欠落しているベンチマーク
推論モデル全体でトークンの使用状況を測定しました:オープンモデルは、同じタスクでクローズドモデルよりも1.5〜4倍多くのトークンを出力しますが、タスクタイプによって大きなばらつきがあります(単純な質問では最大10倍)。
この隠れたコストは、多くの場合、トークンごとの価格設定の利点を打ち消します。トークンの効率は、特に推論的でないユースケースを考慮すると、精度ベンチマークと並んで主要なターゲットになるはずです。
オープンモデルとクローズドモデルのランドスケープ全体にわたる推論効率の徹底的なレビューは、常駐研究者のTimと共同で行われた最新のブログ投稿でお読みください。
彼らの作品をもっと見る こちら:

48.56K
レジデンス研究者の@yaboilyricalは、8月3日にカリフォルニア大学バークレー校でSMCステアリングに関する彼の研究について話し合います。
この作品に関するブログはこちらからご覧ください。
詳細は後述!

nightwing2025年7月25日
excited to announce i’ll be a speaker at the @BerkeleyRDI DeAI Summit, presenting my research with @NousResearch on constrained language decoding!
if you’re attending the summit, or want to come see my talk, please contact me!

10.81K
Atropos v0.3 がリリースされました!
当社のRL環境フレームワークは、v0.2以降、多くのアップグレードが行われてきました。
- Atroposは、@rogershijin初の外部ベンチマークであるReward-Bench 2により、ベンチマークおよび評価フレームワークとして使用できるようになりました。
- @neurosp1keや友人による100以上の推理タスクを備えた外部環境ジムリポジトリであるReasoningGymを追加しました
- @max_paperclips @intern_lmの推論ブートキャンプを統合し、RLに1000+の新しい推論タスクを追加
- @dmayhem93、Atroposのリードエンジニアは、数十のバグ修正、その他の信頼性と互換性の改善、マルチ環境のサポートの改善、CI/CDを追加しました。
- Atroposのハッカソン環境の多くは/environments/communityに統合されました - それらをすべてリストアップすると、画面スペースの大部分を占めてしまいますが、いくつかのハイライトがあります。
@JakeABoggsによるVR-CLI、Philosophy RLAIF、Adaptive LLM Teachers、WebVoyager、@halleriteによるタンパク質設計、@gabinfayによるモデルルーティング環境、リーンプルーフィングのマルチプルーフィング、キャットボットアリーナ、ポケモン対決、ポーカー、親切な医者、@khoomeikによるサンスクリット語の詩など、盛りだくさんです。
- その他の注目すべき公式にサポートされている新しい環境は次のとおりです。
環境に応じた回答形式
PydanticからJSON環境に移植された@MatternJustus作品
@natolambertと@allen_aiの作品から移植された指示フォロー
レターカウンティング
- 47人の新しい貢献者!
ここで完全な変更ログを確認してください。

Teknium (e/λ)2025年7月18日
審査員としてのLLMを改善し、判断を行う能力についてモデルを評価するための環境のPRをマージしました。
検証可能なすべてのRL環境はベンチマークとほぼ同等です(その逆も同様です)ことをご存知ですか?そこで、Atropos のベースに評価コマンドを追加し、Atropos 環境を通じてベンチマークを実行できるようになりました。
時代遅れまたは使用できないベンチマークフレームワークを非常に多く使用することに不満を感じたため、RL環境フレームワークであるAtroposに評価専用モードを実装しました。
そこで、既存の環境の外から最初に移植したのは、@natolambertのReward-Benchでした。
注: 現時点では、生成報酬モデル (通常の LLM ジャッジ) のみをサポートしています。
PRはこちらでご覧ください。

25.21K
トップ
ランキング
お気に入り
Trending onchain
Trending on X
Recent top fundings
Most notable