Školení AI je synchronní, takže tisíce GPU během výpočtů špičky a poklesu během komunikace. Agregované, to vytváří velké, rytmické výkyvy výkonu, které mohou vybudit "špatné frekvence" mřížky. Utility začínají omezovat obojí: (1) jak rychle/jak daleko se energie pohybuje (časová doména) a (2) kolik úderů se nachází v citlivém frekvenčním pásmu (frekvenční doména). Minulé události ukazují, že oscilace s nízkou Hz se mohou šířit a stresovat rostliny/mřížky; u tréninkových zátěží AI je funkce vynucení větší. Utility proto nastavují kritické frekvence + limity magnitudy (např. široké ochranné pásmo 0,1–20 Hz vs. 0,2–3 Hz AI workload FFT), takže úzký rytmus jednoho místa nemůže dominovat síti. Potenciální opravy dodržování předpisů: Očekávejte kompromisy: spotřeba energie (první dvě) vs. kapitálové výdaje/prostor (druhé). - Vyhlazování softwaru (přidání řízené "výplňové" práce při výpadku napájení), -Tvarování firmwaru GPU (limity náběhu, udržování minimálního příkonu) -Úložný prostor na úrovni stojanu pro absorpci/napájení pohybu. Monitorování FFT v reálném čase funguje jako pojistka. Proč samotný firmware často nestačí? Na současných GPU dosahuje MPF ~90 % TDP (max ppwer) a minimální nastavení krátkých špiček (EDP) je stále ~1,1 × TDP = zbývá alespoň ~20 % výkyvu. Přísné limity nástrojů (např. ~10 %) obvykle vyžadují kromě firmwaru a softwarových řešení také úložiště na úrovni racku (např. očekávejte hybridní opravy).
Shanu Mathew
Shanu Mathew30. 8. 2025
Důležitá barva z vedení datového centra MSFT: Tréninkové clustery AI vytvářejí masivní výkyvy výkonu, které mohou destabilizovat elektrické sítě a způsobit poškození a výpadky zařízení. Řešení zahrnují vyhlazování softwaru, ovládání firmwaru GPU a baterie na úrovni racku, přičemž každé z nich přináší kompromisy mezi spotřebou energie a nákladů. Je potřeba více přístupů.
28,16K