S nmoe mám konečně pocit, že moje znalosti w pytorch, cuda, CuteDSL a b200s odpovídají mým starým zkušenostem s Jaxem, pallasem, mosaicem a TPU v4. Trvalo mi to skoro 2 roky
Stručně; DR s nmoe repozitářem a architekturou:
Mohu provést skutečný nvfp4 nativní trénování 16B parametrů na jednom uzlu 8xB200 a zvládnu kompletní tréninkový běh (~7T tokenů) na méně než 128 GPU za ~30 dní (včetně datového pipeline)
S předpokládaným odhadem to znamená, že teoreticky bych mohl udělat kompletní trénink deepseek-V3 na jednom GB300 NVL72 za méně než 90 dní