普遍的观点是,计算能力是前沿人工智能训练中最重要的因素。我们认为这是错误的:数据是人工智能训练中最昂贵和最重要的组成部分。 我们收集了主要数据标注公司的收入估计,并将其与2024年顶级模型训练的边际计算成本进行了比较。我们的估计显示,数据标注的成本约为边际训练计算成本的3倍。 1/8
我们最近的博客文章详细分析了训练当今旗舰模型的真实成本,提供了具体数字和案例研究。 完整分析请查看Substack: 2/8
2024年的快照:我们计算了主要标注公司的年收入(Scale、Surge、Mercor、Labelbox等),并将其与训练GPT-4o、Sonnet-3.5、Mistral-Large、Grok-2和Llama-3-405B的边际计算支出进行了比较。结果:标注成本大约是边际计算成本的3倍。 3/8
从2023年到2024年,我们发现数据标注行业的增长达到了88倍,而训练计算成本仅上涨了1.3倍。这意味着数据标注的增长速度大约是训练计算成本的70倍。 请注意,我们不期望这种趋势在2025年及以后继续,因为大部分增长来自Mercor,因此即使数据总成本增加,增长率也会降低。 4/8
除了收入,MiniMax-M1 需要不到 100 万美元的计算资源才能达到 Claude-Opus-4 的质量,但策划一个包含 14 万个人类注释的 RL 数据集将花费约 1400 万美元,训练计算的成本是其 28 倍。 5/8
同样,SkyRL-SQL 在文本到 SQL 的任务上与 GPT-4o 匹配,仅使用了 $360 的训练计算,但在后期训练中使用的 600 个专家注释查询的成本约为 $60K 6/8
我们鼓励跟踪人工智能输入的组织也跟踪人类数据成本,因为我们认为这对理解人工智能的进展至关重要 7/8
与 @maxYuxuanZhu 共同撰写 8/8
126.86K