TL;DR 关于 nmoe 仓库和架构: 我可以在单个 8xB200 节点上进行实际的 nvfp4 原生 16B 参数模型训练,并且可以在不到 128 个 GPU 的情况下,在大约 30 天内完成全训练运行(包括数据管道) 推算出来,这意味着我理论上可以在单个 GB300 NVL72 上完成一次完整的 deepseek-V3 训练运行,时间少于 90 天。