トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
多くの人は、「推論」や「非推論」などのさまざまなクラスのモデルを比較することを好みますが、実際には、それらはすべて同じ強化学習手法(およびその他のもの)でかなりの量でトレーニングされています。
正しい見方は、すべてのモデルリリースをさまざまな推論努力で見ることです。多くの人が、Claudeは非推論モデルであると言いますが、彼らは特別なトークンと「深く考え、待機する」ためのUXを最初に持ったモデルの1つです(拡張思考モードのずっと前)。同じことが、リリースされましたが、まだ使いやすくない DeepSeek v3.1 にも当てはまる可能性があります。これらのモデルのチャットバージョンでは、デフォルトで応答ごとにいくつのトークンが使用されているかはわかりません。
正確なトークン数を持つAPIは信頼できる唯一の情報源であり、より頻繁に伝達する必要があります。
次に、推論モデル内では、使用されるトークンの数に大きなばらつきがあります。モデルの価格は、アクティブなパラメーターの合計と使用されたトークンの数の組み合わせである労力の最終的な考慮事項である必要があります。a16z ポッドキャストで Dylan Patel の話を聞いていると、私が大好きな思考モード (o3 と同様) における GPT-5 の大きな勝利の 1 つは、トークンをほぼ 50% 減らしてわずかに良い結果が得られたことだったようです。私はこれを少し感じましたが、それはo3よりもタスクに上がっているだけです。
もう一つのポイントは、R1の第2世代であるR1-0528は、より多くの推論を使用することでスコアを向上させたことです。クウェンも同様だ。これは、ユーザーにとって必ずしも非常に価値があるとは限りません。
技術レベルでは、評価結果でモデルごとに使用されたトークンの数を報告することでこれを解決します(特にピアと比較して)。問題は、AI の発売が現在かなり主流であり、コミュニケーションが微妙な技術的詳細であることです。
たとえば、研究面では、推論モデルを同業他社よりも長い文脈で評価することで、評価スコアを大幅に向上させることができます。
トークンでの推論作業、場合によってはシステムプロンプトでの推論作業は、現在では複雑な変数ですが、これらすべてのリリースで単純なはい/いいえではありません。
以下は、o1がリリースされる前(昨年9月12日)にこれについて議論した投稿のスクリーンショットと、クロードの思考行動を発見したredditユーザーのスクリーンショットです。
この暴言は、常に繰り返す必要があるため、将来の参照のために保存しておきます。


25.01K
トップ
ランキング
お気に入り