Resumen: con el repositorio nmoe y la arquitectura: Puedo realizar el entrenamiento de un modelo nativo de 16B parámetros nvfp4 en un solo nodo 8xB200 y puedo hacer una ejecución de entrenamiento completa (~7T tokens) en menos de 128 GPUs en ~30 días (incluyendo la canalización de datos). Proyectando, esto significa que teóricamente podría realizar una ejecución de entrenamiento completa de deepseek-V3 en un solo GB300 NVL72 en menos de 90 días.