Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Результаты NeurIPS опубликованы; у Pluralis три принятых статьи. Первая — это основное исследовательское достижение, которое в настоящее время поддерживает наш 7,5 миллиардный открытый предобучающий запуск node0. Две другие также являются значительными результатами, которые мы интегрируем в последующие запуски. Это сделано небольшой командой из менее чем 10 человек, параллельно с созданием node0.
1) Сетевые подпространства: Масштабирование децентрализованного обучения с эффективным по коммуникации параллелизмом моделей: Масштабирование моделей привело к значительным достижениям в глубоком обучении, но обучение этих моделей в децентрализованных условиях остается сложной задачей из-за узких мест в коммуникации. Хотя существующие методы сжатия эффективны в параллельном обучении данных, они не распространяются на параллелизм моделей. В отличие от параллельного обучения данных, где обмениваются градиенты весов, параллелизм моделей требует сжатия активаций и градиентов активаций по мере их распространения через слои, накапливая ошибки сжатия. Мы предлагаем новый алгоритм сжатия, который сжимает как прямые, так и обратные проходы, обеспечивая до 99% сжатия без ухудшения сходимости с незначительными накладными расходами по памяти/вычислениям. Используя рекурсивную структуру в трансформерных сетях, мы предопределяем низкоразмерное подпространство для ограничения активаций и градиентов, позволяя полную реконструкцию на последующих слоях. Наш метод достигает до 100-кратного улучшения эффективности коммуникации и позволяет обучать модели с миллиардом параметров на недорогих GPU, подключенных через интернет-соединения со скоростью всего 80 Мбит/с, сопоставляя сходимость централизованных систем дата-центров с соединениями 100 Гбит/с с модельным параллелизмом.
2) Смеси подпространств для эффективного по полосе контекстного параллельного обучения: Предобучение языковых моделей с расширенными контекстными окнами улучшает их способность использовать богатую информацию во время генерации. Существующие методы разбивают входные последовательности на фрагменты, транслируют их на несколько устройств и вычисляют внимание блок за блоком, что влечет за собой значительные накладные расходы на коммуникацию. Хотя это осуществимо в кластерах с высокой скоростью, эти методы непрактичны для децентрализованного обучения через соединения с низкой пропускной способностью. Мы предлагаем метод сжатия для эффективного по коммуникации контекстного параллелизма в децентрализованных условиях, достигая замечательной скорости сжатия более 95% с незначительными накладными расходами и без потерь в сходимости. Наше ключевое понимание заключается в том, чтобы использовать внутреннюю низкоранговую структуру выходов активации, динамически ограничивая их изученными смесями подпространств через эффективные репараметризации. Мы демонстрируем масштабирование децентрализованных моделей с миллиардом параметров до контекстных длин, превышающих 100K токенов, на сетях со скоростью до 300 Мбит/с, сопоставляя скорость сходимости централизованных моделей на соединениях 100 Гбит/с.
3) Модели протоколов, не подлежащие извлечению: Совместное обучение и вывод без материализации весов: Мы рассматриваем децентрализованную настройку обучения, в которой участники совместно обучают и обслуживают большую нейронную сеть, и где каждый участник обрабатывает только подмножество модели. В этой настройке мы исследуем возможность нематериализуемых весов, когда полный набор весов никогда не доступен ни одному участнику. Мы вводим Модели Протоколов, Не Подлежащие Извлечению (UPMs): рамки обучения и вывода, которые используют шардированную настройку модели, чтобы гарантировать, что шардированные модели (т.е. подмножества), находящиеся у участников, несовместимы на разных временных этапах. UPMs периодически вводят временно изменяющиеся, случайные, обратимые преобразования на границах участников; сохраняя общую функцию сети, но делая сборки между временными этапами несогласованными. На Qwen-2.5-0.5B и Llama-3.2-1B 10 000 преобразований оставляют FP 32 перплексию неизменной (PPL Jensen–Shannon drift). Применение преобразования каждые 30 секунд добавляет 3% задержки, 0.1% пропускной способности и 10% накладных расходов на память GPU при выводе, в то время как накладные расходы на обучение снижаются до 1.6% времени и менее 1% памяти. Мы рассматриваем несколько атак, показывая, что требования к прямым атакам непрактичны и легко защищаются, и что градиентная дообучение сшитых частей потребляет токены, необходимые для обучения с нуля. Позволяя моделям совместно обучаться, но не извлекаться, UPMs делают практичным внедрение программных механизмов стимулов в децентрализованное обучение, управляемое сообществом.
Топ
Рейтинг
Избранное