Resumo; DR com o repositório e arquitetura NMOE: Consigo fazer treinamento nativo de modelos nvfp4 16B param em um único nó 8xB200 e posso fazer um treino completo (~7T tokens) em menos de 128 GPUs em ~30 dias (incluindo o pipeline de dados) Projetado para a saída, isso significa que teoricamente eu poderia fazer uma rodada completa de treinamento deepseek-V3 em um único GB300 NVL72 em menos de 90 dias