AI訓練是同步的,因此成千上萬的GPU在計算時會激增,在通信時會下降。綜合來看,這會產生大的、有節奏的電力波動,可能會激發電網的“壞頻率”。公用事業公司開始限制這兩方面:(1)電力移動的速度/距離(時間域),以及(2)在敏感頻帶中存在的波動量(頻率域)。 過去的事件表明,低赫茲的振盪會傳播並對電廠/電網造成壓力;在AI訓練負載下,強迫函數更大。因此,公用事業公司設定了關鍵頻率和幅度限制(例如,寬的0.1–20 Hz保護帶與0.2-3 Hz的AI工作負載FFT),以確保一個站點的窄波動不會主導電網。 合規的潛在解決方案:預期權衡:能量消耗(前兩者)與資本支出/空間(後者)。 - 軟體平滑(在電力下降時添加受控的“填充”工作), - GPU固件整形(限制上升,保持最低電力底線) - 機架級存儲以吸收/供應波動。即時FFT監測充當後備。 為什麼僅靠固件通常不夠?在當前的GPU上,MPF的上限約為TDP的90%(最大功率),而最小短脈衝設置(EDP)仍然約為TDP的1.1倍=至少約20%的波動仍然存在。嚴格的公用事業限制(例如,約10%)通常需要機架級存儲,除了固件和軟體解決方案(例如,預期混合解決方案)。
Shanu Mathew
Shanu Mathew2025年8月30日
來自MSFT數據中心負責人的重要信息:AI訓練集群會產生巨大的電力波動,這可能會使電網不穩定,導致設備損壞和停電。解決方案包括軟體平滑、GPU固件控制和機架級電池,每種方案都有能源/成本的權衡。需要多種方法。
28.16K