La sabiduría predominante es que la computación es el factor más importante para el entrenamiento de IA de frontera. Creemos que esto es incorrecto: los datos son el componente más costoso e importante del entrenamiento de IA. Recopilamos estimaciones de ingresos para las principales empresas de etiquetado de datos y las comparamos con el costo marginal de computación para entrenar los mejores modelos en 2024. Nuestras estimaciones muestran que el etiquetado de datos es ~3 veces más alto que el costo marginal de computación para el entrenamiento. 1/8
Nuestra reciente publicación en el blog desglosa el verdadero costo de entrenar los modelos insignia de hoy con números concretos y estudios de caso El análisis completo está en Substack: 2/8
Una instantánea de 2024: calculamos los ingresos anuales de las principales empresas de etiquetado (Scale, Surge, Mercor, Labelbox, …) y los comparamos con el gasto marginal en computación para entrenar GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 y Llama-3-405B. Resultado: los costos de etiquetado son aproximadamente 3 veces los costos marginales de computación. 3/8
De 2023 a 2024, encontramos un salto de 88x en la industria de etiquetado de datos, mientras que los costos de computación para entrenamiento solo aumentaron 1.3x. Esta es una tasa de crecimiento ~70x más rápida para el etiquetado de datos. Ten en cuenta que no esperamos que las tendencias continúen en 2025 y más allá, ya que la mayor parte del crecimiento proviene de Mercor, por lo que las tasas de crecimiento serán más bajas, incluso cuando la cantidad total de costos de datos aumente. 4/8
Beyond revenues, MiniMax-M1 needed <$1M in compute to reach Claude-Opus-4 quality, yet curating an RL dataset with 140k human annotations would cost ~$14M, 28x the training compute 5/8
De manera similar, SkyRL-SQL igualó a GPT-4o en texto a SQL con solo $360 de computación de entrenamiento, pero las 600 consultas anotadas por expertos utilizadas en el post-entrenamiento costaron alrededor de ~$60K 6/8
Animamos a las organizaciones que rastrean las entradas a la IA a que también rastreen los costos de los datos humanos, ya que creemos que esto es fundamental para entender el progreso de la IA 7/8
Coescrito con @maxYuxuanZhu 8/8
146,41K