Существующая точка зрения заключается в том, что вычислительные мощности являются самым важным фактором для обучения передового ИИ. Мы считаем, что это неправильно: данные являются самой дорогой и важной составляющей обучения ИИ. Мы собрали оценки доходов для крупных компаний по разметке данных и сравнили их с предельными затратами на вычисления для обучения лучших моделей в 2024 году. Наши оценки показывают, что разметка данных стоит примерно в 3 раза дороже, чем предельные затраты на обучение. 1/8
Наш недавний блог-пост разбирает истинную стоимость обучения современных флагманских моделей с конкретными цифрами и примерами из практики Полный анализ доступен на Substack: 2/8
Снимок 2024 года: мы рассчитали годовой доход крупных компаний по маркировке (Scale, Surge, Mercor, Labelbox и др.) и сравнили его с предельными затратами на вычисления для обучения GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 и Llama-3-405B. Результат: затраты на маркировку примерно в 3 раза превышают предельные затраты на вычисления. 3/8
С 2023 по 2024 год мы наблюдаем скачок в 88 раз в индустрии маркировки данных, в то время как затраты на вычисления для обучения возросли всего на 1,3 раза. Это темп роста примерно в 70 раз быстрее для маркировки данных. Обратите внимание, что мы не ожидаем, что тенденции продолжатся в 2025 году и позже, так как большая часть роста связана с Mercor, поэтому темпы роста будут ниже, даже несмотря на то, что общая сумма затрат на данные увеличивается. 4/8
Помимо доходов, MiniMax-M1 потребовалось менее 1 миллиона долларов на вычисления, чтобы достичь качества Claude-Opus-4, однако создание набора данных RL с 140 тысячами аннотаций от людей обошлось бы примерно в 14 миллионов долларов, что в 28 раз больше затрат на обучение. 5/8
Аналогично, SkyRL-SQL сопоставил GPT-4o в задаче текст-к-SQL с использованием всего $360 вычислительных ресурсов для обучения, но 600 запросов, аннотированных экспертами, использованных в постобучении, обошлись примерно в $60K 6/8
Мы призываем организации, которые отслеживают входные данные для ИИ, также отслеживать затраты на человеческие данные, так как мы считаем, что это критически важно для понимания прогресса ИИ 7/8
Соавтор: @maxYuxuanZhu 8/8
104,24K