Обучение ИИ синхронное, поэтому тысячи GPU испытывают пики во время вычислений и снижаются во время передачи данных. В совокупности это создает большие ритмичные колебания мощности, которые могут возбуждать "плохие частоты" в сети. Коммунальные службы начинают ограничивать оба параметра: (1) как быстро/насколько далеко перемещается энергия (временная область), и (2) сколько колебаний находится в чувствительном частотном диапазоне (частотная область). Прошлые события показывают, что низкочастотные колебания могут распространяться и нагружать электростанции/сети; при нагрузках от обучения ИИ функция принуждения больше. Поэтому коммунальные службы устанавливают критические частоты и пределы величины (например, широкий защитный диапазон 0,1–20 Гц против 0,2-3 Гц для FFT нагрузки ИИ), чтобы узкие колебания одного сайта не могли доминировать в сети. Потенциальные решения для соблюдения норм: Ожидайте компромиссов: потребление энергии (первые два) против капитальных затрат/пространства (последние). - Программное сглаживание (добавление контролируемой "заполнительной" работы, когда мощность падает), - Формирование прошивки GPU (ограничение на увеличение, поддержание минимального уровня мощности) - Хранение на уровне стоек для поглощения/поставки колебаний. Мониторинг FFT в реальном времени действует как подстраховка. Почему одной прошивки часто недостаточно? На текущих GPU MPF достигает ~90% TDP (максимальная мощность), а минимальная настройка короткого пика (EDP) все еще составляет ~1,1× TDP = по крайней мере ~20% колебаний остается. Строгие лимиты коммунальных служб (например, ~10%) обычно требуют хранения на уровне стоек в дополнение к решениям на основе прошивки и программного обеспечения (например, ожидайте гибридные решения).
Shanu Mathew
Shanu Mathew30 авг. 2025 г.
Важный комментарий от руководителя центра обработки данных MSFT: кластеры для обучения ИИ создают огромные колебания мощности, которые могут дестабилизировать электрические сети, вызывая повреждение оборудования и отключения. Решения включают программное сглаживание, управление прошивкой GPU и батареи на уровне стоек, каждая из которых имеет свои энергетические/стоимостьные компромиссы. Необходим многосторонний подход.
28,15K