La saggezza prevalente è che il calcolo sia il fattore più importante per l'addestramento dell'IA di frontiera. Pensiamo che questo sia sbagliato: i dati sono il componente più costoso e importante dell'addestramento dell'IA. Abbiamo raccolto stime di fatturato per le principali aziende di etichettatura dei dati e le abbiamo confrontate con il costo marginale del calcolo per l'addestramento dei modelli di punta nel 2024. Le nostre stime mostrano che l'etichettatura dei dati è ~3 volte superiore al costo marginale del calcolo per l'addestramento. 1/8
Il nostro recente post sul blog analizza il vero costo di addestrare i modelli di punta di oggi con numeri concreti e casi studio. L'analisi completa è su Substack: 2/8
Uno sguardo al 2024: abbiamo calcolato il fatturato annuale delle principali aziende di etichettatura (Scale, Surge, Mercor, Labelbox, …) e lo abbiamo confrontato con la spesa marginale per il calcolo per l'addestramento di GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 e Llama-3-405B. Risultato: i costi di etichettatura sono circa 3 volte i costi marginali di calcolo. 3/8
Dal 2023 al 2024, troviamo un salto di 88 volte nell'industria della etichettatura dei dati, mentre i costi di calcolo per l'addestramento sono aumentati solo di 1,3 volte. Questo rappresenta un tasso di crescita circa 70 volte più veloce per l'etichettatura dei dati. Nota che non ci aspettiamo che le tendenze continuino nel 2025 e oltre, poiché gran parte della crescita proviene da Mercor, quindi i tassi di crescita saranno più bassi, anche se l'importo totale dei costi dei dati aumenta. 4/8
Oltre ai ricavi, MiniMax-M1 ha bisogno di meno di 1 milione di dollari in capacità di calcolo per raggiungere la qualità di Claude-Opus-4, tuttavia curare un dataset RL con 140k annotazioni umane costerebbe circa 14 milioni di dollari, 28 volte il calcolo per l'addestramento 5/8
Allo stesso modo, SkyRL-SQL ha eguagliato GPT-4o nel text-to-SQL con solo $360 di calcolo per l'addestramento, ma le 600 query annotate da esperti utilizzate nel post-addestramento sono costate circa ~$60K 6/8
Incoraggiamo le organizzazioni che monitorano gli input per l'IA a monitorare anche i costi dei dati umani, poiché riteniamo che questo sia fondamentale per comprendere i progressi dell'IA 7/8
Co-scritto con @maxYuxuanZhu 8/8
104,24K