nanochat 现在可以以 <<$100 (~$73,单个 8XH100 节点上 3 小时) 的价格训练 GPT-2 级别的 LLM。 GPT-2 是我最喜欢的 LLM,因为这是 LLM 堆栈首次以可识别的现代形式结合在一起。因此,我对以更便宜的价格训练一个具有 GPT-2 能力的模型产生了一种奇怪而持久的痴迷,受益于大约 7 年的进展。特别是,我怀疑今天应该可以以 <<$100 的价格训练一个。 最初在 2019 年,GPT-2 是由 OpenAI 在 32 个 TPU v3 芯片上训练的,持续了 168 小时(7 天),当时的费用为每个 TPUv3 $8/小时,总成本约为 $43K。它达到了 0.256525 的 CORE 分数,这是在 DCLM 论文中引入的一个集成指标,经过 22 次评估,如 ARC/MMLU 等。 截至最近合并到 nanochat 的一些改进(其中许多源自 modded-nanogpt 仓库),我现在可以在单个 8XH100 节点上以 3.04 小时 (~$73) 达到更高的 CORE 分数。这是 7 年间成本降低了 600 倍,即训练 GPT-2 的成本每年大约下降 2.5 倍。我认为这可能是一个低估,因为我仍然相对定期地发现更多的改进,并且我还有一堆想法待尝试。 有关优化细节和如何重现的更多信息,请查看更长的帖子: 受到 modded-nanogpt 的启发,我还创建了一个“时间到 GPT-2”的排行榜,其中第一个“Jan29”模型以 3.04 小时成为第 1 条目。进一步迭代这个将会很有趣,我欢迎任何帮助!我希望 nanochat 能够发展成为一个非常不错/干净且经过调优的实验 LLM 平台,用于原型设计、娱乐,当然还有学习。 那些开箱即用并立即产生收益的最大改进包括 1) Flash Attention 3 内核(更快,并允许 window_size kwarg 获取交替注意模式),Muon 优化器(我尝试了大约 1 天删除它,只使用 AdamW,但我做不到),由可学习标量控制的残差路径和跳过连接,以及值嵌入。还有许多其他较小的改进也在不断累积。 图片:与当前 nanochat 模型迷你系列的缩放法则推导相关的半相关眼花缭乱的内容,既美观又令人满意!