Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A sabedoria predominante é que o poder computacional é o fator mais importante para o treinamento de IA de ponta. Achamos que isso está errado: os dados são o componente mais caro e importante do treinamento de IA.
Coletámos estimativas de receita para as principais empresas de rotulagem de dados e comparamos com o custo marginal de computação para treinar os principais modelos em 2024. Nossas estimativas mostram que a rotulagem de dados é ~3x mais cara do que o custo marginal de treinamento computacional.
1/8

O nosso recente post no blog analisa o verdadeiro custo de treinar os modelos de topo de hoje com números concretos e estudos de caso
A análise completa está no Substack:
2/8
Uma visão geral de 2024: calculámos a receita anual das principais empresas de rotulagem (Scale, Surge, Mercor, Labelbox, …) e comparamos com os gastos marginais em computação para treinar o GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 e Llama-3-405B. Resultado: os custos de rotulagem são aproximadamente 3x os custos marginais de computação.
3/8
De 2023 a 2024, encontramos um salto de 88x na indústria de rotulagem de dados, enquanto os custos de computação para treinamento aumentaram apenas 1,3x. Esta é uma taxa de crescimento ~70x mais rápida para rotulagem de dados
Note que não esperamos que as tendências continuem em 2025 e além, uma vez que a maior parte do crescimento vem da Mercor, portanto, as taxas de crescimento serão mais baixas, mesmo com o aumento do custo total dos dados
4/8
Além das receitas, o MiniMax-M1 precisava de menos de 1 milhão de dólares em computação para alcançar a qualidade do Claude-Opus-4, no entanto, a curadoria de um conjunto de dados RL com 140 mil anotações humanas custaria cerca de 14 milhões de dólares, 28 vezes a computação de treinamento
5/8
Da mesma forma, o SkyRL-SQL igualou o GPT-4o em texto-para-SQL com apenas $360 de computação de treinamento, mas as 600 consultas anotadas por especialistas usadas no pós-treinamento custaram cerca de ~$60K
6/8
Incentivamos as organizações que monitorizam os inputs para a IA a também monitorizar os custos de dados humanos, pois acreditamos que isso é fundamental para entender o progresso da IA
7/8
Co-escrito com @maxYuxuanZhu
8/8
146,4K
Top
Classificação
Favoritos