热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
TL;DR 关于 nmoe 仓库和架构:
我可以在单个 8xB200 节点上进行实际的 nvfp4 原生 16B 参数模型训练,并且可以在不到 128 个 GPU 的情况下,在大约 30 天内完成全训练运行(包括数据管道)
推算出来,这意味着我理论上可以在单个 GB300 NVL72 上完成一次完整的 deepseek-V3 训练运行,时间少于 90 天。
热门
排行
收藏
