Tóm tắt: với repo nmoe và kiến trúc: Tôi có thể thực hiện việc huấn luyện mô hình tham số 16B gốc nvfp4 thực sự trên một nút 8xB200 và có thể thực hiện một lần huấn luyện đầy đủ (~7T token) trên ít hơn 128 GPU trong khoảng 30 ngày (bao gồm cả pipeline dữ liệu) Dự đoán ra, điều này có nghĩa là tôi có thể lý thuyết thực hiện một lần huấn luyện deepseek-V3 đầy đủ trên một GB300 NVL72 trong chưa đầy 90 ngày