Resumen; DR con el repositorio y la arquitectura NMOE: Puedo hacer entrenamiento nativo de modelos nvfp4 16B en un solo nodo 8xB200 y puedo hacer entrenamiento completo (~7T tokens) con menos de 128 GPUs en ~30 días (incluyendo la pipeline de datos). Proyectado a lo largo de la proyección, esto significa que teóricamente podría hacer una partida completa de entrenamiento deepseek-V3 con un solo GB300 NVL72 en menos de 90 días