熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
目前的共識是,計算能力是前沿 AI 訓練中最重要的因素。我們認為這是錯誤的:數據才是 AI 訓練中最昂貴和最重要的組成部分。
我們收集了主要數據標註公司的收入估算,並將其與 2024 年訓練頂級模型的邊際計算成本進行比較。我們的估算顯示,數據標註的成本約為邊際訓練計算的 3 倍。
1/8

我們最近的部落格文章詳細分析了訓練當今旗艦模型的真實成本,並提供了具體數字和案例研究。
完整分析在 Substack 上:
2/8
2024年的快照:我們計算了主要標籤公司的年收入(Scale、Surge、Mercor、Labelbox等),並將其與訓練GPT-4o、Sonnet-3.5、Mistral-Large、Grok-2和Llama-3-405B的邊際計算支出進行比較。結果:標籤成本大約是邊際計算成本的3倍。
3/8
從2023年到2024年,我們發現數據標註行業的增長達到88倍,而訓練計算成本僅上升了1.3倍。這意味著數據標註的增長速度約為70倍。
請注意,我們不預期這些趨勢會持續到2025年及以後,因為大部分增長來自Mercor,因此增長率將會降低,即使數據成本的總額在增加。
4/8
除了收入之外,MiniMax-M1 需要少於 100 萬美元的計算資源才能達到 Claude-Opus-4 的質量,但策劃一個擁有 14 萬條人類註釋的強化學習數據集將花費約 1400 萬美元,這是訓練計算資源的 28 倍
5/8
同樣地,SkyRL-SQL 在文本到 SQL 的表現上與 GPT-4o 相匹配,僅使用了 $360 的訓練計算資源,但在後期訓練中使用的 600 個專家註釋的查詢成本約為 ~$60K
6/8
我們鼓勵追蹤 AI 輸入的組織也追蹤人類數據成本,因為我們相信這對於理解 AI 的進展至關重要
7/8
與 @maxYuxuanZhu 共同撰寫
8/8
104.23K
熱門
排行
收藏