TL; DR dengan repositori dan arsitektur nmoe: Saya dapat melakukan pelatihan model parameter 16B asli nvfp4 aktual pada satu simpul 8xB200 dan dapat melakukan pelatihan penuh (token ~7T) pada kurang dari 128 GPU dalam ~30 hari (termasuk alur data) Diproyeksikan, ini berarti saya secara teoritis dapat melakukan pelatihan deepseek-V3 penuh pada satu GB300 NVL72 dalam waktu kurang dari 90 hari