Das Training von KI ist synchron, sodass Tausende von GPUs während der Berechnung Spitzen erzeugen und während der Kommunikation abfallen. Aggregiert erzeugt das große, rhythmische Leistungsschwankungen, die "schlechte Frequenzen" im Netz anregen können. Versorgungsunternehmen beginnen, beides zu begrenzen: (1) wie schnell/wie weit sich die Energie bewegt (Zeitbereich) und (2) wie viel Beat in einem empfindlichen Frequenzband sitzt (Frequenzbereich). Vergangene Ereignisse zeigen, dass niedrige Hz-Oszillationen sich ausbreiten und Anlagen/Netze belasten können; bei KI-Trainingslasten ist die treibende Funktion größer. Daher setzen Versorgungsunternehmen kritische Frequenzen + Magnitudenlimits (z. B. ein breites 0,1–20 Hz-Schutzband im Vergleich zu 0,2-3 Hz KI-Arbeitslast-FFT), damit der enge Beat eines Standorts das Netz nicht dominieren kann. Mögliche Lösungen zur Einhaltung: Erwarten Sie Kompromisse: Energieverbrauch (erste beiden) vs. Investitionskosten/Raum (letztere). - Software-Glättung (fügen Sie kontrollierte "Füll"-Arbeiten hinzu, wenn die Energie sinkt), - GPU-Firmware-Formung (Grenzen anheben, einen Mindeststromboden halten) - Rack-Level-Speicher, um die Wackelbewegungen zu absorbieren/zu liefern. Die Echtzeit-FFT-Überwachung fungiert als Rückhalt. Warum Firmware allein oft nicht ausreicht? Bei aktuellen GPUs erreicht MPF etwa 90 % des TDP (maximale Leistung) und die minimale Kurzspitzen-Einstellung (EDP) liegt immer noch bei etwa 1,1× TDP = mindestens etwa 20 % Schwankung bleibt. Strenge Versorgungsgrenzen (z. B. etwa 10 %) erfordern typischerweise Rack-Level-Speicher zusätzlich zu Firmware- und Softwarelösungen (z. B. erwarten Sie hybride Lösungen).
Shanu Mathew
Shanu Mathew30. Aug. 2025
Wichtige Information vom Leiter des Rechenzentrums von MSFT: KI-Trainingscluster erzeugen massive Leistungsschwankungen, die elektrische Netze destabilisieren und zu Geräteschäden sowie Ausfällen führen können. Lösungen umfassen Software-Glättung, GPU-Firmware-Steuerungen und Rack-Level-Batterien, jeweils mit Energie-/Kosten-Abwägungen. Ein multi-approach ist erforderlich.
28,16K