TL; DR NMOE-reposition ja arkkitehtuurin osalta: Voin tehdä oikean nvfp4-natiivisen 16B parametrimallin koulutuksen yhdellä 8xB200-solmulla ja tehdä täyden harjoitusajon (~7T tokenit) alle 128 GPU:lla ~30 päivässä (mukaan lukien dataputki) Ennustettuna tämä tarkoittaa, että voisin teoriassa tehdä täyden deepseek-V3-harjoitusajon yhdellä GB300 NVL72:lla alle 90 päivässä