A sabedoria predominante é que o poder computacional é o fator mais importante para o treinamento de IA de ponta. Achamos que isso está errado: os dados são o componente mais caro e importante do treinamento de IA. Coletámos estimativas de receita para as principais empresas de rotulagem de dados e comparamos com o custo marginal de computação para treinar os principais modelos em 2024. Nossas estimativas mostram que a rotulagem de dados é ~3x mais cara do que o custo marginal de treinamento computacional. 1/8
O nosso recente post no blog analisa o verdadeiro custo de treinar os modelos de topo de hoje com números concretos e estudos de caso A análise completa está no Substack: 2/8
Uma visão geral de 2024: calculámos a receita anual das principais empresas de rotulagem (Scale, Surge, Mercor, Labelbox, …) e comparamos com os gastos marginais em computação para treinar o GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 e Llama-3-405B. Resultado: os custos de rotulagem são aproximadamente 3x os custos marginais de computação. 3/8
De 2023 a 2024, encontramos um salto de 88x na indústria de rotulagem de dados, enquanto os custos de computação para treinamento aumentaram apenas 1,3x. Esta é uma taxa de crescimento ~70x mais rápida para rotulagem de dados Note que não esperamos que as tendências continuem em 2025 e além, uma vez que a maior parte do crescimento vem da Mercor, portanto, as taxas de crescimento serão mais baixas, mesmo com o aumento do custo total dos dados 4/8
Além das receitas, o MiniMax-M1 precisava de menos de 1 milhão de dólares em computação para alcançar a qualidade do Claude-Opus-4, no entanto, a curadoria de um conjunto de dados RL com 140 mil anotações humanas custaria cerca de 14 milhões de dólares, 28 vezes a computação de treinamento 5/8
Da mesma forma, o SkyRL-SQL igualou o GPT-4o em texto-para-SQL com apenas $360 de computação de treinamento, mas as 600 consultas anotadas por especialistas usadas no pós-treinamento custaram cerca de ~$60K 6/8
Incentivamos as organizações que monitorizam os inputs para a IA a também monitorizar os custos de dados humanos, pois acreditamos que isso é fundamental para entender o progresso da IA 7/8
Co-escrito com @maxYuxuanZhu 8/8
146,4K