Переважаюча думка полягає в тому, що обчислення є найважливішим фактором для навчання передового ШІ. Ми вважаємо, що це неправильно: дані є найдорожчим і найважливішим компонентом навчання ШІ. Ми зібрали оцінки доходів основних компаній, що займаються маркуванням даних, і порівняли їх із граничними обчислювальними витратами на навчання топ-моделей у 2024 році. Наші оцінки показують, що маркування даних у ~3 рази вище, ніж обчислення граничного навчання. 1/8
Наша нещодавня публікація в блозі розбиває справжню вартість навчання сучасних флагманських моделей з конкретними цифрами та тематичними дослідженнями Повний аналіз на Substack: 2/8
Знімок 2024 року: ми розрахували річний дохід великих фірм з маркування (Scale, Surge, Mercor, Labelbox, ...) і порівняли його з граничними витратами на обчислення для навчання GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 і Llama-3-405B. Результат: витрати на маркування приблизно в 3 рази перевищують граничні обчислювальні витрати. 3/8
З 2023 по 2024 рік ми спостерігаємо стрибок у 88 разів у галузі маркування даних, тоді як витрати на навчальні обчислення зросли лише в 1,3 раза. Це в ~70 разів швидше для маркування даних Зазначимо, що ми не очікуємо, що тенденції збережуться у 2025 році та надалі, оскільки більша частина зростання припадає на Mercor, тому темпи зростання будуть нижчими, навіть попри збільшення загального обсягу витрат на дані 4/8
Крім доходів, MiniMax-M1 знадобилося < 1 мільйон доларів на обчислення, щоб досягти якості Claude-Opus-4, але курація набору даних RL зі 140 тисячами людських анотацій коштувала б ~ 14 мільйонів доларів, що в 28 разів перевищує навчальний обчислення 5/8
Подібним чином, SkyRL-SQL зіставив GPT-4o з текстом у SQL лише з 360 доларами на навчальні обчислення, але 600 запитів з анотаціями експертів, які використовувалися після навчання, коштували ~60 тисяч доларів 6/8
Ми заохочуємо організації, які відстежують вхідні дані до штучного інтелекту, також відстежувати витрати на людські дані, оскільки ми вважаємо, що це має вирішальне значення для розуміння прогресу штучного інтелекту 7/8
У співавторстві з @maxYuxuanZhu 8/8
104,23K