TL;DR met de nmoe repo en architectuur: Ik kan daadwerkelijke nvfp4 native 16B param modeltraining uitvoeren op een enkele 8xB200 node en kan een volledige trainingsronde (~7T tokens) uitvoeren op minder dan 128 GPU's in ~30 dagen (inclusief de dataleiding) Projectie geeft aan dat ik theoretisch een volledige deepseek-V3 trainingsronde op een enkele GB300 NVL72 in minder dan 90 dagen zou kunnen uitvoeren.