ملخص؛ ملخص مع مستودع nmoe وبنية البنية: يمكنني القيام بتدريب نموذج 16B على نموذج nvfp4 الأصلي على عقدة 8xB200 واحدة ويمكنني تنفيذ تدريب كامل (~7T tokens) على أقل من 128 وحدة معالجة رسومات في ~30 يوما (بما في ذلك خط أنابيب البيانات) عند التوقع، هذا يعني نظريا أنني أستطيع إجراء تدريب كامل على Deepseek-V3 على جهاز GB300 NVL72 واحد في أقل من 90 يوما