Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
De heersende opvatting is dat rekencapaciteit de belangrijkste factor is voor de training van grensverleggende AI. Wij denken dat dit onjuist is: data is de kostbaarste en belangrijkste component van AI-training.
We hebben schattingen verzameld van de omzet voor grote data-labelbedrijven en deze vergeleken met de marginale rekentijdskosten voor het trainen van topmodellen in 2024. Onze schattingen tonen aan dat data-labeling ~3x hoger is dan de marginale training rekencapaciteit.
1/8

Onze recente blogpost legt de werkelijke kosten van het trainen van de huidige vlaggenschipmodellen bloot met concrete cijfers en casestudy's.
De volledige analyse is te vinden op Substack:
2/8
Een momentopname van 2024: we hebben de jaarlijkse omzet van grote labelbedrijven (Scale, Surge, Mercor, Labelbox, …) berekend en vergeleken met de marginale computerkosten voor het trainen van GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 en Llama-3-405B. Resultaat: de labelkosten zijn ongeveer 3x de marginale computerkosten.
3/8
Van 2023 tot 2024 zien we een sprong van 88x in de data-labelingindustrie, terwijl de kosten voor trainingcomputers slechts met 1,3x zijn gestegen. Dit is een groeisnelheid van ~70x sneller voor data-labeling.
Let op dat we niet verwachten dat de trends zich doorzetten in 2025 en daarna, aangezien de meeste groei afkomstig is van Mercor, dus de groeipercentages zullen lager zijn, zelfs als het totale bedrag aan datakosten toeneemt.
4/8
Naast de inkomsten had MiniMax-M1 <1M$ aan rekencapaciteit nodig om de kwaliteit van Claude-Opus-4 te bereiken, maar het cureren van een RL-dataset met 140k menselijke annotaties zou ongeveer 14M$ kosten, 28x de trainingsrekenkracht
5/8
Evenzo heeft SkyRL-SQL GPT-4o geëvenaard op text-to-SQL met slechts $360 aan trainingscomputing, maar de 600 door experts geannoteerde queries die in de post-training zijn gebruikt, kostten ongeveer ~$60K
6/8
We moedigen organisaties aan die invoer voor AI bijhouden, om ook de kosten van menselijke data bij te houden, omdat we geloven dat dit cruciaal is voor het begrijpen van de voortgang van AI
7/8
Co-schrijver met @maxYuxuanZhu
8/8
104,26K
Boven
Positie
Favorieten