跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
探索 Web3 Giveaway 活動,每週豐厚獎勵等您來領取
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-3.69%
USELESS
-1.26%
IKUN
-11.18%
gib
-4.08%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-2.35%
ALON
-12.72%
LAUNCHCOIN
-9.9%
GOONC
-2.25%
KLED
-10.07%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+1.22%
Boopa
+3.06%
PORK
+5.08%
主頁
Alexander Long
創始人 @PluralisHQ |ML 博士 協議學習:多參與者、低頻寬模型並行
查看原文
Alexander Long
19 小時前
這有點瘋狂
Pluralis Research
19 小時前
NeurIPS 結果已公佈;Pluralis 有三篇論文被接受。第一篇是核心研究成果,目前正在支持我們的 7.5B 開放預訓練運行 node0。第二篇和第三篇也是重要成果,我們將把它們整合到後續的運行中。這是一個小團隊完成的,人數少於 10 人,同時在構建 node0。 1) 子空間網絡:通過通信高效的模型並行擴展去中心化訓練:擴展模型已在深度學習中取得了顯著進展,但在去中心化環境中訓練這些模型仍然面臨通信瓶頸的挑戰。雖然現有的壓縮技術在數據並行中有效,但它們並不適用於模型並行。與數據並行訓練不同,數據並行訓練中權重梯度被交換,而模型並行需要在激活和激活梯度通過層傳播時進行壓縮,從而累積壓縮誤差。我們提出了一種新穎的壓縮算法,可以壓縮前向和後向傳遞,實現高達 99% 的壓縮率,並且沒有收斂降級,內存/計算開銷微乎其微。通過利用變換器網絡中的遞歸結構,我們預定義了一個低維子空間來限制激活和梯度,從而允許在後續層中完全重構。我們的方法在通信效率上實現了高達 100 倍的提升,並使得在低端 GPU 上以低至 80Mbps 的消費者級互聯網速度訓練十億參數規模的模型,匹配了具有 100Gbps 連接的集中式數據中心系統的收斂效果,採用模型並行。 2) 帶寬高效的上下文並行訓練的子空間混合:使用擴展上下文窗口預訓練語言模型增強了它們在生成過程中利用豐富信息的能力。現有方法將輸入序列分割成塊,在多個設備之間廣播,並逐塊計算注意力,這會產生顯著的通信開銷。雖然在高速集群中可行,但這些方法在低帶寬連接的去中心化訓練中並不實用。我們提出了一種用於去中心化環境中通信高效上下文並行的壓縮方法,實現了超過 95% 的顯著壓縮率,開銷微乎其微且沒有收斂損失。我們的關鍵見解是通過高效的重新參數化動態約束激活輸出的內在低秩結構,利用學習到的子空間混合。我們展示了在網絡速度低至 300Mbps 的情況下,將十億參數的去中心化模型擴展到超過 100K 令牌的上下文長度,匹配了集中式模型在 100Gbps 互連上的牆鍾收斂速度。 3) 不可提取協議模型:無需權重物化的協作訓練和推理: 我們考慮一種去中心化訓練設置,其中參與者協作訓練和服務一個大型神經網絡,每個參與者僅處理模型的一個子集。在這種設置中,我們探索不可物化權重的可能性,即任何一個參與者都永遠無法獲得完整的權重集。我們引入了不可提取協議模型(UPMs):一種利用分片模型設置的訓練和推理框架,確保參與者持有的模型片段(即子集)在不同時間步驟下不兼容。UPMs 定期在參與者邊界注入時間變化的隨機可逆變換;保持整體網絡功能,同時使跨時間的組合變得不連貫。在 Qwen-2.5-0.5B 和 Llama-3.2-1B 上,10,000 次變換使 FP 32 困惑度保持不變(PPL Jensen–Shannon 漂移)。每 30 秒應用一次變換會增加 3% 的延遲,0.1% 的帶寬和 10% 的 GPU 內存開銷,而訓練開銷降至 1.6% 的時間和 < 1% 的內存。我們考慮了幾種攻擊,表明直接攻擊的要求不切實際且易於防禦,並且基於梯度的拼接分區微調消耗了從頭訓練所需的令牌。通過使模型能夠協作訓練但不被提取,UPMs 使得在社區驅動的去中心化訓練中嵌入程序激勵機制變得可行。
7
Alexander Long
9月18日 05:51
RT @usv: Pluralis 正在進行一項非常大的事情:一個去中心化的 AI 訓練運行,任何人都可以貢獻計算能力並獲得獎勵。…
20
Alexander Long
9月18日 05:38
RT @Ar_Douillard: Pluralis 是分佈式學習中最強大的初創公司之一
13
熱門
排行
收藏