Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kebijaksanaan yang berlaku adalah bahwa komputasi adalah faktor terpenting untuk pelatihan AI perbatasan. Kami pikir ini salah: data adalah komponen yang paling mahal dan penting dari pelatihan AI.
Kami mengumpulkan perkiraan pendapatan untuk perusahaan pelabelan data utama dan membandingkannya dengan biaya komputasi marjinal untuk melatih model teratas pada tahun 2024. Perkiraan kami menunjukkan bahwa pelabelan data ~3x lebih tinggi daripada komputasi pelatihan marjinal.
1/8

Posting blog kami baru-baru ini merinci biaya sebenarnya untuk melatih model unggulan saat ini dengan angka konkret dan studi kasus
Analisis lengkapnya ada di Substack:
2/8
Gambaran tahun 2024: kami menghitung pendapatan tahunan perusahaan pelabelan besar (Scale, Surge, Mercor, Labelbox, ...) dan membandingkannya dengan pengeluaran komputasi marjinal untuk pelatihan GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2, dan Llama-3-405B. Hasilnya: biaya pelabelan kira-kira 3x lipat dari biaya komputasi marjinal.
3/8
Dari tahun 2023 hingga 2024, kami menemukan lompatan 88x lipat di industri pelabelan data, sementara biaya komputasi pelatihan hanya naik 1,3x. Ini adalah tingkat pertumbuhan ~70x lebih cepat untuk pelabelan data
Perhatikan bahwa kami tidak memperkirakan tren akan berlanjut hingga tahun 2025 dan seterusnya, karena sebagian besar pertumbuhan berasal dari Mercor, sehingga tingkat pertumbuhan akan lebih rendah, bahkan ketika jumlah total biaya data meningkat
4/8
Di luar pendapatan, MiniMax-M1 membutuhkan komputasi <$1 juta untuk mencapai kualitas Claude-Opus-4, namun mengkurasi kumpulan data RL dengan 140 ribu anotasi manusia akan menelan biaya ~$14 juta, 28x komputasi pelatihan
5/8
Demikian pula, SkyRL-SQL mencocokkan GPT-4o pada text-to-SQL hanya $360 komputasi pelatihan, tetapi 600 kueri beranotasi ahli yang digunakan dalam biaya pasca-pelatihan ~$60K
6/8
Kami mendorong organisasi yang melacak input ke AI untuk juga melacak biaya data manusia, karena kami percaya ini sangat penting untuk memahami kemajuan AI
7/8
Ditulis bersama @maxYuxuanZhu
8/8
104,24K
Teratas
Peringkat
Favorit