Med nmoe føler jeg endelig at min ekspertise i pytorch, cuda, CuteDSL og b200s matcher min gamle ekspertise i Jax, pallas, mosaic og TPU v4. Det tok nesten 2 år å gjøre det
TL; DR med nmoe-repo og arkitektur:
Jeg kan faktisk gjøre nvfp4 native 16B param-modelltrening på en enkelt 8xB200-node og kan gjøre full treningskjøring (~7T tokens) på mindre enn 128 GPU-er på ~30 dager (inkludert datapipelinen)
Forventet betyr dette at jeg teoretisk sett kunne gjennomført en full deepseek-V3 treningsrunde på en enkelt GB300 NVL72 på under 90 dager