TL; DR med nmoe-repo og arkitektur: Jeg kan faktisk gjøre nvfp4 native 16B param-modelltrening på en enkelt 8xB200-node og kan gjøre full treningskjøring (~7T tokens) på mindre enn 128 GPU-er på ~30 dager (inkludert datapipelinen) Forventet betyr dette at jeg teoretisk sett kunne gjennomført en full deepseek-V3 treningsrunde på en enkelt GB300 NVL72 på under 90 dager