Кратко о репозитории nmoe и архитектуре: Я могу проводить обучение модели с 16B параметрами на базе nvfp4 на одном узле 8xB200 и могу выполнить полное обучение (~7T токенов) на менее чем 128 GPU за ~30 дней (включая обработку данных). Если проецировать это, это означает, что теоретически я мог бы провести полное обучение deepseek-V3 на одном GB300 NVL72 менее чем за 90 дней.