熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
TL;DR 關於 nmoe 倉庫和架構:
我可以在單個 8xB200 節點上進行實際的 nvfp4 原生 16B 參數模型訓練,並且可以在不到 128 個 GPU 的情況下,在約 30 天內完成全訓練運行(包括數據管道)
推算出來,這意味著我理論上可以在單個 GB300 NVL72 上完成一次完整的 deepseek-V3 訓練運行,時間少於 90 天
熱門
排行
收藏
