Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O treinamento de IA é síncrono, então milhares de GPUs têm picos durante o cálculo e diminuem durante a comunicação. Agregado, isso cria grandes oscilações de potência rítmicas que podem excitar 'frequências ruins' da rede. As utilidades estão começando a limitar ambos: (1) quão rápido/quão longe a energia se move (domínio do tempo) e (2) quanto batimento está em uma faixa de frequência sensível (domínio da frequência).
Eventos passados mostram que oscilações de baixa frequência podem se propagar e estressar usinas/rede; com as cargas de treinamento de IA, a função de forçamento é maior. Portanto, as utilidades definem limites críticos de frequência + magnitude (por exemplo, uma ampla faixa de proteção de 0,1–20 Hz contra 0,2-3 Hz de carga de trabalho de FFT de IA) para que o batimento estreito de um local não domine a rede.
Possíveis soluções para conformidade: Espere compensações: queima de energia (primeiras duas) vs. capex/espaço (últimas).
-Suavização de software (adicionar trabalho "preenchido" controlado quando a energia cair),
-Modelagem de firmware de GPU (limites de rampa, manter um piso de potência mínimo)
-Armazenamento em nível de rack para absorver/suprir a oscilação. Monitoramento de FFT em tempo real atua como um suporte.
Por que apenas o firmware muitas vezes não é suficiente? Em GPUs atuais, o MPF atinge cerca de 90% do TDP (potência máxima) e a configuração mínima de pico curto (EDP) ainda é cerca de 1,1× TDP = pelo menos cerca de 20% de oscilação permanece. Limites de utilidade apertados (por exemplo, cerca de 10%) geralmente precisam de armazenamento em nível de rack além de soluções de firmware e software (por exemplo, espere soluções híbridas).





30/08/2025
Importante aviso do líder do centro de dados da MSFT: os clusters de treinamento de IA criam oscilações de energia massivas que podem desestabilizar as redes elétricas, causando danos aos equipamentos e interrupções. As soluções incluem suavização de software, controles de firmware de GPU e baterias a nível de rack, cada uma com trade-offs de energia/custo. É necessária uma abordagem múltipla.


28,15K
Top
Classificação
Favoritos