一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

普遍的观点是，计算能力是前沿人工智能训练中最重要的因素。我们认为这是错误的：数据是人工智能训练中最昂贵和最重要的组成部分。我们收集了主要数据标注公司的收入估计，并将其与2024年顶级模型训练的边际计算成本进行了比较。我们的估计显示，数据标注的成本约为边际训练计算成本的3倍。 1/8

我们最近的博客文章详细分析了训练当今旗舰模型的真实成本，提供了具体数字和案例研究。完整分析请查看Substack： 2/8

2024年的快照：我们计算了主要标注公司的年收入（Scale、Surge、Mercor、Labelbox等），并将其与训练GPT-4o、Sonnet-3.5、Mistral-Large、Grok-2和Llama-3-405B的边际计算支出进行了比较。结果：标注成本大约是边际计算成本的3倍。 3/8

从2023年到2024年，我们发现数据标注行业的增长达到了88倍，而训练计算成本仅上涨了1.3倍。这意味着数据标注的增长速度大约是训练计算成本的70倍。请注意，我们不期望这种趋势在2025年及以后继续，因为大部分增长来自Mercor，因此即使数据总成本增加，增长率也会降低。 4/8

除了收入，MiniMax-M1 需要不到 100 万美元的计算资源才能达到 Claude-Opus-4 的质量，但策划一个包含 14 万个人类注释的 RL 数据集将花费约 1400 万美元，训练计算的成本是其 28 倍。 5/8

同样，SkyRL-SQL 在文本到 SQL 的任务上与 GPT-4o 匹配，仅使用了 $360 的训练计算，但在后期训练中使用的 600 个专家注释查询的成本约为 $60K 6/8

我们鼓励跟踪人工智能输入的组织也跟踪人类数据成本，因为我们认为这对理解人工智能的进展至关重要 7/8

与 @maxYuxuanZhu 共同撰写 8/8

126.86K