热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
AI训练是同步的,因此成千上万的GPU在计算时会激增,在通信时会下降。综合来看,这会产生大的、有节奏的电力波动,可能会激发电网的“坏频率”。公用事业公司开始限制这两方面:(1)电力移动的速度/距离(时间域),以及(2)在敏感频带中存在的波动量(频率域)。
过去的事件表明,低赫兹的振荡会传播并对电厂/电网造成压力;在AI训练负载下,强迫函数更大。因此,公用事业公司设定了关键频率和幅度限制(例如,宽的0.1–20 Hz保护带与0.2-3 Hz的AI工作负载FFT),以确保一个站点的窄波动不会主导电网。
合规的潜在解决方案:预期权衡:能量消耗(前两者)与资本支出/空间(后者)。
- 软件平滑(在电力下降时添加受控的“填充”工作),
- GPU固件整形(限制上升,保持最低电力底线)
- 机架级存储以吸收/供应波动。实时FFT监测充当后备。
为什么仅靠固件通常不够?在当前的GPU上,MPF的上限约为TDP的90%(最大功率),而最小短脉冲设置(EDP)仍然约为TDP的1.1倍=至少约20%的波动仍然存在。严格的公用事业限制(例如,约10%)通常需要机架级存储,除了固件和软件解决方案(例如,预期混合解决方案)。





2025年8月30日
来自MSFT数据中心负责人的重要信息:AI训练集群会产生巨大的电力波动,这可能会使电网不稳定,导致设备损坏和停电。解决方案包括软件平滑、GPU固件控制和机架级电池,每种方案都有能源/成本的权衡。需要多种方法。


28.16K
热门
排行
收藏