Коротко; DR з репозиторією та архітектурою nmoe: Я можу виконати реальне nvfp4 нативне навчання моделі параметрів 16B на одному вузлі 8xB200 і можу виконати повний тренувальний запуск (~7T токени) на менш ніж 128 GPU за ~30 днів (включно з дата-пайплайном) Прогнозовано, це означає, що теоретично я міг би пройти повний тренувальний забіг deepseek V3 на одному GB300 NVL72 менш ніж за 90 днів