Resumo: com o repositório nmoe e a arquitetura: Posso realizar o treinamento de um modelo nativo de 16B de parâmetros nvfp4 em um único nó 8xB200 e posso fazer uma execução de treinamento completa (~7T tokens) em menos de 128 GPUs em ~30 dias (incluindo o pipeline de dados). Projetando, isso significa que eu poderia teoricamente realizar uma execução de treinamento completa do deepseek-V3 em um único GB300 NVL72 em menos de 90 dias.