分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

コンピューティングはフロンティアAIトレーニングにとって最も重要な要素であるというのが一般的な知恵です。データはAIトレーニングの最もコストがかかり、重要な要素です。主要なデータラベリング会社の収益の推定値を収集し、2024年のトップモデルをトレーニングするための限界コンピューティングコストと比較しました。私たちの推定では、データのラベル付けは限界トレーニング計算よりも~3倍高いことが示されています。 1/8

最近のブログ投稿では、今日の主力モデルのトレーニングにかかる実際のコストを具体的な数字とケーススタディで分析しています完全な分析はSubstackにあります。 2/8

2024年のスナップショット:主要なラベリング会社(Scale、Surge、Mercor、Labelboxなど)の年間収益を計算し、GPT-4o、Sonnet-3.5、Mistral-Large、Grok-2、Llama-3-405Bのトレーニングにかかる限界コンピューティング支出と比較しました。結果: ラベル付けコストは、限界コンピューティングコストの約 3 倍です。 3/8

2023 年から 2024 年にかけて、データラベリング業界では 88 倍に急増しましたが、トレーニングコンピューティングコストはわずか 1.3 倍しか上昇しませんでした。これは、データラベリングの成長率~70倍ですなお、成長のほとんどがMercorによるものであるため、2025年以降もこの傾向が続くとは予想していないため、データコストの総量が増加しても成長率は低くなるでしょう 4/8

MiniMax-M1 が Claude-Opus-4 の品質に達するには、収益以外にも <$1M のコンピューティングが必要でしたが、140k の人間による注釈を含む RL データセットをキュレーションするには、トレーニングコンピューティングの 28 倍の ~$14M の費用がかかります 5/8

同様に、SkyRL-SQL は、トレーニングコンピューティングの費用がわずか 360 ドルで、テキストから SQL への GPT-4o に一致しましたが、トレーニング後に使用される 600 の専門家による注釈付きクエリのコストは ~60 ドルでした 6/8

AI への入力を追跡する組織には、AI の進歩を理解するために重要であると考えているため、人間のデータのコストも追跡することをお勧めします 7/8

@maxYuxuanZhuとの共著 8/8

104.24K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable