一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

TL;DR 關於 nmoe 倉庫和架構：我可以在單個 8xB200 節點上進行實際的 nvfp4 原生 16B 參數模型訓練，並且可以在不到 128 個 GPU 的情況下，在約 30 天內完成全訓練運行（包括數據管道）推算出來，這意味著我理論上可以在單個 GB300 NVL72 上完成一次完整的 deepseek-V3 訓練運行，時間少於 90 天