Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Den rådande uppfattningen är att beräkning är den viktigaste faktorn för avancerad AI-träning. Vi anser att detta är fel: data är den mest kostsamma och viktigaste komponenten i AI-träning.
Vi samlade in uppskattningar av intäkter för stora datamärkningsföretag och jämförde dem med marginalberäkningskostnaden för träning av toppmodeller år 2024. Våra uppskattningar visar att datamärkningen är ~3 gånger högre än den marginella träningsberäkningen.
1/8

I vårt senaste blogginlägg bryter vi ner den verkliga kostnaden för att träna dagens flaggskeppsmodeller med konkreta siffror och fallstudier
Den fullständiga analysen finns på Substack:
2/8
En ögonblicksbild av 2024: vi beräknade den årliga intäkten för stora märkningsföretag (Scale, Surge, Mercor, Labelbox, ...) och jämförde den med de marginella beräkningsutgifterna för träning GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 och Llama-3-405B. Resultat: etiketteringskostnaderna är ungefär 3 gånger marginalberäkningskostnaderna.
3/8
Från 2023 till 2024 hittar vi ett hopp på 88 gånger i datamärkningsbranschen, medan kostnaderna för träningsberäkning bara ökade med 1,3 gånger. Detta är en tillväxttakt som är ~70 gånger snabbare för datamärkning
Observera att vi inte förväntar oss att trenderna kommer att fortsätta in i 2025 och framåt, eftersom det mesta av tillväxten kommer från Mercor, så tillväxttakten kommer att vara lägre, även när den totala mängden datakostnader ökar
4/8
Utöver intäkterna behövde MiniMax-M1 <1 miljon dollar i beräkning för att nå Claude-Opus-4-kvalitet, men att kurera en RL-datauppsättning med 140 000 mänskliga kommentarer skulle kosta ~14 miljoner dollar, 28 gånger träningsberäkningen
5/8
På samma sätt matchade SkyRL-SQL GPT-4o på text-till-SQL med bara 360 dollar i träningsberäkning, men de 600 expertkommenterade frågorna som användes efter träningen kostade ~60 000 dollar
6/8
Vi uppmuntrar organisationer som spårar indata till AI att också spåra kostnader för mänskliga data, eftersom vi anser att detta är avgörande för att förstå AI-framsteg
7/8
Skriven tillsammans med @maxYuxuanZhu
8/8
146,42K
Topp
Rankning
Favoriter