Den rådande uppfattningen är att beräkning är den viktigaste faktorn för avancerad AI-träning. Vi anser att detta är fel: data är den mest kostsamma och viktigaste komponenten i AI-träning. Vi samlade in uppskattningar av intäkter för stora datamärkningsföretag och jämförde dem med marginalberäkningskostnaden för träning av toppmodeller år 2024. Våra uppskattningar visar att datamärkningen är ~3 gånger högre än den marginella träningsberäkningen. 1/8
I vårt senaste blogginlägg bryter vi ner den verkliga kostnaden för att träna dagens flaggskeppsmodeller med konkreta siffror och fallstudier Den fullständiga analysen finns på Substack: 2/8
En ögonblicksbild av 2024: vi beräknade den årliga intäkten för stora märkningsföretag (Scale, Surge, Mercor, Labelbox, ...) och jämförde den med de marginella beräkningsutgifterna för träning GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 och Llama-3-405B. Resultat: etiketteringskostnaderna är ungefär 3 gånger marginalberäkningskostnaderna. 3/8
Från 2023 till 2024 hittar vi ett hopp på 88 gånger i datamärkningsbranschen, medan kostnaderna för träningsberäkning bara ökade med 1,3 gånger. Detta är en tillväxttakt som är ~70 gånger snabbare för datamärkning Observera att vi inte förväntar oss att trenderna kommer att fortsätta in i 2025 och framåt, eftersom det mesta av tillväxten kommer från Mercor, så tillväxttakten kommer att vara lägre, även när den totala mängden datakostnader ökar 4/8
Utöver intäkterna behövde MiniMax-M1 <1 miljon dollar i beräkning för att nå Claude-Opus-4-kvalitet, men att kurera en RL-datauppsättning med 140 000 mänskliga kommentarer skulle kosta ~14 miljoner dollar, 28 gånger träningsberäkningen 5/8
På samma sätt matchade SkyRL-SQL GPT-4o på text-till-SQL med bara 360 dollar i träningsberäkning, men de 600 expertkommenterade frågorna som användes efter träningen kostade ~60 000 dollar 6/8
Vi uppmuntrar organisationer som spårar indata till AI att också spåra kostnader för mänskliga data, eftersom vi anser att detta är avgörande för att förstå AI-framsteg 7/8
Skriven tillsammans med @maxYuxuanZhu 8/8
146,42K