TL;DR con il repository nmoe e l'architettura: Posso eseguire un vero addestramento di modelli con parametri nativi nvfp4 da 16B su un singolo nodo 8xB200 e posso completare un'intera sessione di addestramento (~7T token) con meno di 128 GPU in ~30 giorni (incluso il pipeline dei dati) Proiettando, questo significa che potrei teoricamente eseguire un'intera sessione di addestramento deepseek-V3 su un singolo GB300 NVL72 in meno di 90 giorni