AI-opplæring er synkron, så tusenvis av GPU-er øker under databehandling og synker under kommunikasjon. Aggregert, det skaper store, rytmiske kraftsvingninger som kan begeistre "dårlige frekvenser". Verktøy begynner å begrense begge: (1) hvor raskt/hvor langt kraften beveger seg (tidsdomene), og (2) hvor mye takt som sitter i et sensitivt frekvensbånd (frekvensdomene). Tidligere hendelser viser at lav-Hz-svingninger kan forplante seg og stresse anlegg/nett; med AI-treningsbelastninger er tvangsfunksjonen større. Verktøy setter derfor kritiske frekvenser + størrelsesgrenser (f.eks. et bredt 0,1–20 Hz beskyttelsesbånd vs. 0,2–3 Hz AI-arbeidsbelastning FFT) slik at ett nettsteds smale beat ikke kan dominere nettet. Potensielle løsninger for samsvar: Forvent avveininger: energiforbrenning (de to første) vs. capex/plass (sistnevnte). -Programvareutjevning (legg til kontrollert "fyll"-arbeid når strømmen vil synke), -GPU-fastvareforming (rampegrenser, hold et minimum strømgulv) -Oppbevaring på stativnivå for å absorbere/forsyne wiggle. FFT-overvåking i sanntid fungerer som en sikkerhetsmekanisme. Hvorfor fastvare alene ofte ikke er nok? På nåværende GPUer topper MPF ~90 % av TDP (maks ppwer) og minimum short-spike-innstilling (EDP) er fortsatt ~1.1× TDP = minst ~20 % sving gjenstår. Stramme bruksgrenser (f.eks. ~10 %) trenger vanligvis lagring på racknivå i tillegg til fastvare- og programvareløsninger (f.eks. forvent hybridreparasjoner).
Shanu Mathew
Shanu Mathew30. aug. 2025
Viktig farge fra MSFT-datasenterleder: AI-treningsklynger skaper massive strømsvingninger som kan destabilisere elektriske nett, forårsake skade på utstyr og strømbrudd. Løsningene inkluderer programvareutjevning, GPU-fastvarekontroller og batterier på racknivå, hver med avveininger mellom energi og kostnader. Multi-tilnærming nødvendig.
28,16K