Înțelepciunea predominantă este că calculul este cel mai important factor pentru antrenamentul AI de frontieră. Credem că acest lucru este greșit: datele sunt cea mai costisitoare și importantă componentă a antrenamentului AI. Am colectat estimări ale veniturilor pentru companiile majore de etichetare a datelor și le-am comparat cu costul marginal de calcul pentru antrenarea modelelor de top în 2024. Estimările noastre arată că etichetarea datelor este de ~3 ori mai mare decât calculul de antrenament marginal. 1/8
Postarea noastră recentă pe blog detaliază costul real al antrenamentului modelelor emblematice de astăzi cu cifre concrete și studii de caz Analiza completă este pe Substack: 2/8
Un instantaneu al anului 2024: am calculat veniturile anuale ale marilor firme de etichetare (Scale, Surge, Mercor, Labelbox, ...) și le-am comparat cu cheltuielile marginale de calcul pentru antrenamentul GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 și Llama-3-405B. Rezultat: costurile de etichetare sunt de aproximativ 3 ori mai mari decât costurile marginale de calcul. 3/8
Din 2023 până în 2024, găsim un salt de 88 de ori în industria de etichetare a datelor, în timp ce costurile de calcul de antrenament au crescut de doar 1,3 ori. Aceasta este o rată de creștere de ~70 de ori mai rapidă pentru etichetarea datelor Rețineți că nu ne așteptăm ca tendințele să continue în 2025 și mai departe, deoarece cea mai mare parte a creșterii provine de la Mercor, astfel încât ratele de creștere vor fi mai mici, chiar dacă cantitatea totală a costurilor de date crește 4/8
Beyond revenues, MiniMax-M1 needed <$1M in compute to reach Claude-Opus-4 quality, yet curating an RL dataset with 140k human annotations would cost ~$14M, 28x the training compute 5/8
În mod similar, SkyRL-SQL a egalat GPT-4o pe text-to-SQL cu doar 360 USD de calcul de antrenament, dar cele 600 de interogări adnotate de experți utilizate în post-antrenament au costat ~ 60 de mii de dolari 6/8
Încurajăm organizațiile care urmăresc intrările în AI să urmărească și costurile datelor umane, deoarece credem că acest lucru este esențial pentru înțelegerea progresului AI 7/8
Co-scris cu @maxYuxuanZhu 8/8
146,41K