TL;DR 關於 nmoe 倉庫和架構: 我可以在單個 8xB200 節點上進行實際的 nvfp4 原生 16B 參數模型訓練,並且可以在不到 128 個 GPU 的情況下,在約 30 天內完成全訓練運行(包括數據管道) 推算出來,這意味著我理論上可以在單個 GB300 NVL72 上完成一次完整的 deepseek-V3 訓練運行,時間少於 90 天