TL; DR med nmoe-repot och arkitekturen: Jag kan göra faktisk nvfp4 native 16B parammodellträning på en enda 8xB200-nod och kan göra full träningskörning (~7T tokens) på mindre än 128 GPU:er på ~30 dagar (inklusive datapipelinen) Uträknat betyder detta att jag teoretiskt skulle kunna göra en full deepseek-V3-träningsrunda på en enda GB300 NVL72 på mindre än 90 dagar