TL;DR avec le dépôt nmoe et l'architecture : Je peux effectuer un entraînement de modèle natif 16B param nvfp4 sur un seul nœud 8xB200 et réaliser un entraînement complet (~7T tokens) sur moins de 128 GPU en ~30 jours (y compris le pipeline de données). Projetté, cela signifie que je pourrais théoriquement réaliser un entraînement complet deepseek-V3 sur un seul GB300 NVL72 en moins de 90 jours.