O treinamento de IA é síncrono, então milhares de GPUs têm picos durante o cálculo e diminuem durante a comunicação. Agregado, isso cria grandes oscilações de potência rítmicas que podem excitar 'frequências ruins' da rede. As utilidades estão começando a limitar ambos: (1) quão rápido/quão longe a energia se move (domínio do tempo) e (2) quanto batimento está em uma faixa de frequência sensível (domínio da frequência). Eventos passados mostram que oscilações de baixa frequência podem se propagar e estressar usinas/rede; com as cargas de treinamento de IA, a função de forçamento é maior. Portanto, as utilidades definem limites críticos de frequência + magnitude (por exemplo, uma ampla faixa de proteção de 0,1–20 Hz contra 0,2-3 Hz de carga de trabalho de FFT de IA) para que o batimento estreito de um local não domine a rede. Possíveis soluções para conformidade: Espere compensações: queima de energia (primeiras duas) vs. capex/espaço (últimas). -Suavização de software (adicionar trabalho "preenchido" controlado quando a energia cair), -Modelagem de firmware de GPU (limites de rampa, manter um piso de potência mínimo) -Armazenamento em nível de rack para absorver/suprir a oscilação. Monitoramento de FFT em tempo real atua como um suporte. Por que apenas o firmware muitas vezes não é suficiente? Em GPUs atuais, o MPF atinge cerca de 90% do TDP (potência máxima) e a configuração mínima de pico curto (EDP) ainda é cerca de 1,1× TDP = pelo menos cerca de 20% de oscilação permanece. Limites de utilidade apertados (por exemplo, cerca de 10%) geralmente precisam de armazenamento em nível de rack além de soluções de firmware e software (por exemplo, espere soluções híbridas).
Shanu Mathew
Shanu Mathew30/08/2025
Importante aviso do líder do centro de dados da MSFT: os clusters de treinamento de IA criam oscilações de energia massivas que podem desestabilizar as redes elétricas, causando danos aos equipamentos e interrupções. As soluções incluem suavização de software, controles de firmware de GPU e baterias a nível de rack, cada uma com trade-offs de energia/custo. É necessária uma abordagem múltipla.
28,15K