Pe scurt; DR cu depozitul NMOE și arhitectura: Pot face antrenament nativ nvfp4 pentru modele de param 16B pe un singur nod 8xB200 și pot face o rulare completă de antrenament (~7T tokenuri) pe mai puțin de 128 GPU-uri în ~30 de zile (inclusiv pipeline-ul de date). Prognozat, asta înseamnă că teoretic aș putea face un antrenament complet deepseek-V3 pe un singur GB300 NVL72 în mai puțin de 90 de zile