推論モデルにおける思考効率の測定:欠落しているベンチマーク 推論モデル全体でトークンの使用状況を測定しました:オープンモデルは、同じタスクでクローズドモデルよりも1.5〜4倍多くのトークンを出力しますが、タスクタイプによって大きなばらつきがあります(単純な質問では最大10倍)。 この隠れたコストは、多くの場合、トークンごとの価格設定の利点を打ち消します。トークンの効率は、特に推論的でないユースケースを考慮すると、精度ベンチマークと並んで主要なターゲットになるはずです。 オープンモデルとクローズドモデルのランドスケープ全体にわたる推論効率の徹底的なレビューは、常駐研究者のTimと共同で行われた最新のブログ投稿でお読みください。 彼らの作品をもっと見る こちら:
19.38K