TL;DR z repozytorium nmoe i architekturą: Mogę przeprowadzić rzeczywiste szkolenie modelu nvfp4 z natywnymi parametrami 16B na pojedynczym węźle 8xB200 i mogę wykonać pełne szkolenie (~7T tokenów) na mniej niż 128 GPU w ~30 dni (w tym pipeline danych) Projekcja wskazuje, że teoretycznie mógłbym przeprowadzić pełne szkolenie deepseek-V3 na pojedynczym GB300 NVL72 w mniej niż 90 dni