コンピューティングはフロンティアAIトレーニングにとって最も重要な要素であるというのが一般的な知恵です。データはAIトレーニングの最もコストがかかり、重要な要素です。 主要なデータラベリング会社の収益の推定値を収集し、2024年のトップモデルをトレーニングするための限界コンピューティングコストと比較しました。私たちの推定では、データのラベル付けは限界トレーニング計算よりも~3倍高いことが示されています。 1/8
最近のブログ投稿では、今日の主力モデルのトレーニングにかかる実際のコストを具体的な数字とケーススタディで分析しています 完全な分析はSubstackにあります。 2/8
2024年のスナップショット:主要なラベリング会社(Scale、Surge、Mercor、Labelboxなど)の年間収益を計算し、GPT-4o、Sonnet-3.5、Mistral-Large、Grok-2、Llama-3-405Bのトレーニングにかかる限界コンピューティング支出と比較しました。結果: ラベル付けコストは、限界コンピューティング コストの約 3 倍です。 3/8
2023 年から 2024 年にかけて、データ ラベリング業界では 88 倍に急増しましたが、トレーニング コンピューティング コストはわずか 1.3 倍しか上昇しませんでした。これは、データラベリングの成長率~70倍です なお、成長のほとんどがMercorによるものであるため、2025年以降もこの傾向が続くとは予想していないため、データコストの総量が増加しても成長率は低くなるでしょう 4/8
MiniMax-M1 が Claude-Opus-4 の品質に達するには、収益以外にも <$1M のコンピューティングが必要でしたが、140k の人間による注釈を含む RL データセットをキュレーションするには、トレーニング コンピューティングの 28 倍の ~$14M の費用がかかります 5/8
同様に、SkyRL-SQL は、トレーニング コンピューティングの費用がわずか 360 ドルで、テキストから SQL への GPT-4o に一致しましたが、トレーニング後に使用される 600 の専門家による注釈付きクエリのコストは ~60 ドルでした 6/8
AI への入力を追跡する組織には、AI の進歩を理解するために重要であると考えているため、人間のデータのコストも追跡することをお勧めします 7/8
@maxYuxuanZhuとの共著 8/8
104.24K