热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
普遍的观点是,计算能力是前沿人工智能训练中最重要的因素。我们认为这是错误的:数据是人工智能训练中最昂贵和最重要的组成部分。
我们收集了主要数据标注公司的收入估计,并将其与2024年顶级模型训练的边际计算成本进行了比较。我们的估计显示,数据标注的成本约为边际训练计算成本的3倍。
1/8

我们最近的博客文章详细分析了训练当今旗舰模型的真实成本,提供了具体数字和案例研究。
完整分析请查看Substack:
2/8
2024年的快照:我们计算了主要标注公司的年收入(Scale、Surge、Mercor、Labelbox等),并将其与训练GPT-4o、Sonnet-3.5、Mistral-Large、Grok-2和Llama-3-405B的边际计算支出进行了比较。结果:标注成本大约是边际计算成本的3倍。
3/8
从2023年到2024年,我们发现数据标注行业的增长达到了88倍,而训练计算成本仅上涨了1.3倍。这意味着数据标注的增长速度大约是训练计算成本的70倍。
请注意,我们不期望这种趋势在2025年及以后继续,因为大部分增长来自Mercor,因此即使数据总成本增加,增长率也会降低。
4/8
除了收入,MiniMax-M1 需要不到 100 万美元的计算资源才能达到 Claude-Opus-4 的质量,但策划一个包含 14 万个人类注释的 RL 数据集将花费约 1400 万美元,训练计算的成本是其 28 倍。
5/8
同样,SkyRL-SQL 在文本到 SQL 的任务上与 GPT-4o 匹配,仅使用了 $360 的训练计算,但在后期训练中使用的 600 个专家注释查询的成本约为 $60K
6/8
我们鼓励跟踪人工智能输入的组织也跟踪人类数据成本,因为我们认为这对理解人工智能的进展至关重要
7/8
与 @maxYuxuanZhu 共同撰写
8/8
126.86K
热门
排行
收藏