TL;DR mit dem nmoe-Repo und der Architektur: Ich kann echtes nvfp4-natives 16B-Parametermodelltraining auf einem einzelnen 8xB200-Knoten durchführen und kann einen vollständigen Trainingslauf (~7T Tokens) mit weniger als 128 GPUs in ~30 Tagen (einschließlich der Datenpipeline) durchführen. Projektiert bedeutet das, dass ich theoretisch einen vollständigen deepseek-V3-Trainingslauf auf einem einzigen GB300 NVL72 in weniger als 90 Tagen durchführen könnte.