NeurIPSの結果が発表されました。Pluralis には 3 つの論文が受理されています。1つ目は、現在7.5Bオープンプレトレーニングランnode0を動かしているコア研究結果です。2 つ目も大きな結果であり、その後の実行に統合します。これは、node0 の構築中に行われる <10 人の小さなチームによるものです。 1) 亜空間ネットワーク: 通信効率の高いモデル並列処理による分散型トレーニングのスケーリング: モデルのスケーリングは深層学習の大幅な進歩につながりましたが、分散型設定でこれらのモデルをトレーニングすることは、通信のボトルネックにより依然として困難です。既存の圧縮手法はデータ並列処理では効果的ですが、モデル並列処理には拡張されません。重み勾配が交換されるデータ並列トレーニングとは異なり、モデル並列トレーニングでは、レイヤーを伝播するときに活性化と活性化勾配を圧縮する必要があり、圧縮誤差が蓄積されます。前方パスと後方パスの両方を圧縮する新しい圧縮アルゴリズムを提案し、メモリ/コンピューティングのオーバーヘッドを無視できる収束の低下なしに最大99%の圧縮を可能にします。トランスフォーマーネットワークの再帰構造を活用することで、低次元部分空間を事前に定義して活性化と勾配を制限し、後続の層で完全な再構成を可能にします。この手法では、通信効率を最大100倍向上させ、80Mbpsという低コンシューマグレードのインターネット速度で接続されたローエンドGPU上で10億パラメータ規模のモデルを学習することができ、100Gbps接続の集中型データセンターシステムのコンバージェンスとモデルパラレルに匹敵します。 2) 帯域幅効率の高いコンテキスト並列トレーニングのためのサブスペースの混合: 拡張コンテキスト ウィンドウを備えた言語モデルの事前トレーニングにより、生成中に豊富な情報を活用する能力が強化されます。既存のメソッドは、入力シーケンスをチャンクに分割し、複数のデバイスにブロードキャストし、ブロックごとにアテンションを計算するため、通信オーバーヘッドが大きくなります。これらの方法は高速クラスターでは実現可能ですが、低帯域幅接続での分散型トレーニングには実用的ではありません。分散型設定における通信効率の高いコンテキスト並列処理のための圧縮方法を提案し、オーバーヘッドを無視でき、収束の損失を損なうことなく、95%を超える驚異的な圧縮率を達成します。私たちの重要な洞察は、効率的な再パラメータ化によって学習された部分空間の混合に動的に制約することにより、活性化出力の固有の低ランク構造を利用することです。100Gbps インターコネクト上の集中型モデルのウォールクロック収束速度に匹敵する、300Mbps の低速ネットワーク上で 100 億パラメーターの分散型モデルを 100K トークンを超えるコンテキスト長にスケーリングすることを実証します。 3) 抽出不可能なプロトコル モデル: 重みを具体化しない共同トレーニングと推論: 参加者が大規模なニューラルネットワークを共同でトレーニングして提供し、各参加者がモデルのサブセットのみを処理する分散型トレーニングセットアップを検討します。このセットアップでは、1 人の参加者が完全な重量セットを利用できない、実体化できない重量の可能性を探ります。Unextractable Protocol Models(UPM)を紹介します:シャードモデルのセットアップを活用して、参加者が保持するモデルシャード(つまり、サブセット)が異なるタイムステップで互換性がないことを確認するトレーニングおよび推論フレームワークです。UPM は、参加者の境界に時変、ランダム、可逆変換を定期的に注入します。ネットワーク機能全体を維持しながら、クロスタイムアセンブリを一貫性のないものにします。Qwen-2.5-0.5BとLlama-3.2-1Bでは、10,000回の変換でFP 32の困惑度は変化しません(PPL Jensen-Shannonドリフト)。30 秒ごとに変換を適用すると、推論時に 3% のレイテンシー、0.1% の帯域幅、10% の GPU メモリ オーバーヘッドが追加されますが、トレーニングのオーバーヘッドは 1.6% の時間と 1% のメモリ<低下します。いくつかの攻撃を検討し、直接攻撃の要件は非現実的で防御が容易であること、およびステッチされたパーティションの勾配ベースの微調整は、ゼロからのトレーニングに必要なトークンを消費することを示しています。UPM は、モデルを共同でトレーニングし、抽出しないことを可能にすることで、コミュニティ主導の分散型トレーニングにプログラムによるインセンティブ メカニズムを組み込むことが実用的になります。