Powszechnie uważa się, że obliczenia są najważniejszym czynnikiem w szkoleniu AI na granicy. Uważamy, że to błędne: dane są najdroższym i najważniejszym składnikiem szkolenia AI. Zebraliśmy szacunki przychodów dla głównych firm zajmujących się etykietowaniem danych i porównaliśmy je z marginalnymi kosztami obliczeń potrzebnymi do szkolenia najlepszych modeli w 2024 roku. Nasze szacunki pokazują, że etykietowanie danych jest ~3 razy wyższe niż marginalne koszty obliczeń szkoleniowych. 1/8
Nasz ostatni post na blogu szczegółowo przedstawia rzeczywisty koszt szkolenia dzisiejszych flagowych modeli z konkretnymi danymi i studiami przypadków Pełna analiza jest dostępna na Substacku: 2/8
Przegląd 2024: obliczyliśmy roczne przychody głównych firm zajmujących się etykietowaniem (Scale, Surge, Mercor, Labelbox, …) i porównaliśmy je z marginalnymi wydatkami na obliczenia związane z treningiem GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 i Llama-3-405B. Wynik: koszty etykietowania są mniej więcej 3 razy wyższe niż marginalne koszty obliczeń. 3/8
Od 2023 do 2024 roku obserwujemy skok o 88x w branży etykietowania danych, podczas gdy koszty obliczeniowe szkolenia wzrosły tylko o 1,3x. To tempo wzrostu jest ~70x szybsze dla etykietowania danych. Zauważ, że nie spodziewamy się, aby te trendy utrzymały się w 2025 roku i później, ponieważ większość wzrostu pochodzi z Mercor, więc wskaźniki wzrostu będą niższe, nawet gdy całkowita kwota kosztów danych wzrośnie. 4/8
Poza przychodami, MiniMax-M1 potrzebował <1M USD na obliczenia, aby osiągnąć jakość Claude-Opus-4, jednak kuracja zbioru danych RL z 140 tys. ludzkich adnotacji kosztowałaby około 14M USD, 28 razy więcej niż obliczenia treningowe 5/8
Podobnie, SkyRL-SQL dopasował się do GPT-4o w zakresie tekstu do SQL przy zaledwie 360 dolarach wydatków na trening, ale 600 zapytań oznaczonych przez ekspertów użytych w post-treningu kosztowało około 60 000 dolarów 6/8
Zachęcamy organizacje, które śledzą dane wejściowe do AI, aby również śledziły koszty danych ludzkich, ponieważ uważamy, że jest to kluczowe dla zrozumienia postępów w AI 7/8
Współautorstwo z @maxYuxuanZhu 8/8
104,25K