Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Переважаюча думка полягає в тому, що обчислення є найважливішим фактором для навчання передового ШІ. Ми вважаємо, що це неправильно: дані є найдорожчим і найважливішим компонентом навчання ШІ.
Ми зібрали оцінки доходів основних компаній, що займаються маркуванням даних, і порівняли їх із граничними обчислювальними витратами на навчання топ-моделей у 2024 році. Наші оцінки показують, що маркування даних у ~3 рази вище, ніж обчислення граничного навчання.
1/8

Наша нещодавня публікація в блозі розбиває справжню вартість навчання сучасних флагманських моделей з конкретними цифрами та тематичними дослідженнями
Повний аналіз на Substack:
2/8
Знімок 2024 року: ми розрахували річний дохід великих фірм з маркування (Scale, Surge, Mercor, Labelbox, ...) і порівняли його з граничними витратами на обчислення для навчання GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 і Llama-3-405B. Результат: витрати на маркування приблизно в 3 рази перевищують граничні обчислювальні витрати.
3/8
З 2023 по 2024 рік ми спостерігаємо стрибок у 88 разів у галузі маркування даних, тоді як витрати на навчальні обчислення зросли лише в 1,3 раза. Це в ~70 разів швидше для маркування даних
Зазначимо, що ми не очікуємо, що тенденції збережуться у 2025 році та надалі, оскільки більша частина зростання припадає на Mercor, тому темпи зростання будуть нижчими, навіть попри збільшення загального обсягу витрат на дані
4/8
Крім доходів, MiniMax-M1 знадобилося < 1 мільйон доларів на обчислення, щоб досягти якості Claude-Opus-4, але курація набору даних RL зі 140 тисячами людських анотацій коштувала б ~ 14 мільйонів доларів, що в 28 разів перевищує навчальний обчислення
5/8
Подібним чином, SkyRL-SQL зіставив GPT-4o з текстом у SQL лише з 360 доларами на навчальні обчислення, але 600 запитів з анотаціями експертів, які використовувалися після навчання, коштували ~60 тисяч доларів
6/8
Ми заохочуємо організації, які відстежують вхідні дані до штучного інтелекту, також відстежувати витрати на людські дані, оскільки ми вважаємо, що це має вирішальне значення для розуміння прогресу штучного інтелекту
7/8
У співавторстві з @maxYuxuanZhu
8/8
104,23K
Найкращі
Рейтинг
Вибране