Převládá názor, že výpočetní technika je nejdůležitějším faktorem pro trénink hraniční umělé inteligence. Myslíme si, že je to špatně: data jsou nejnákladnější a nejdůležitější součástí školení AI. Shromáždili jsme odhady výnosů hlavních společností zabývajících se označováním dat a porovnali je s mezními výpočetními náklady na trénování špičkových modelů v roce 2024. Naše odhady ukazují, že označování dat je ~3x vyšší než okrajový trénovací výpočet. 1/8
Náš nedávný příspěvek na blogu rozebírá skutečné náklady na školení dnešních vlajkových modelů na konkrétních číslech a případových studiích Celá analýza je na Substacku: 2/8
Snímek roku 2024: vypočítali jsme roční příjmy velkých vydavatelských firem (Scale, Surge, Mercor, Labelbox, ...) a porovnali je s mezními výpočetními výdaji na školení GPT-4o, Sonnet-3.5, Mistral-Large, Grok-2 a Llama-3-405B. Výsledek: náklady na označování jsou zhruba 3x vyšší než mezní náklady na výpočetní výkon. 3/8
Od roku 2023 do roku 2024 najdeme v odvětví označování dat 88násobný skok, zatímco náklady na trénování výpočtů vzrostly pouze 1,3krát. Jedná se o ~70x rychlejší tempo růstu pro označování dat Všimněte si, že neočekáváme, že by tyto trendy pokračovaly do roku 2025 a dále, protože většina růstu pochází z Mercoru, takže tempo růstu bude nižší, i když se celkové náklady na data zvýší 4/8
Kromě tržeb potřeboval MiniMax-M1 1 milion < ve výpočetních prostředcích, aby dosáhl kvality Claude-Opus-4, ale kurátorství datové sady RL se 140 tisíci lidskými anotacemi by stálo ~14 milionů dolarů, což je 28x více než trénovací výpočty 5/8
Podobně SkyRL-SQL odpovídal GPT-4o na text-to-SQL s pouhými 360 $ trénovacích výpočetních prostředků, ale 600 expertně anotovaných dotazů použitých v post-tréninku stálo ~60 tisíc $ 6/8
Doporučujeme organizacím, které sledují vstupy do umělé inteligence, aby také sledovaly náklady na lidská data, protože se domníváme, že je to zásadní pro pochopení pokroku v oblasti umělé inteligence 7/8
Napsáno společně s @maxYuxuanZhu 8/8
104,24K