DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Pluralis Research

Apprentissage par protocole

Les résultats de NeurIPS sont publiés ; Pluralis a trois articles acceptés. Le premier est le résultat de recherche principal qui alimente actuellement notre exécution de préentraînement ouverte de 7,5 milliards node0. Les deux autres sont également des résultats majeurs que nous intégrerons dans les exécutions suivantes. Cela a été réalisé avec une petite équipe de <10 personnes, tout en construisant node0. 1) Réseaux de sous-espaces : Mise à l'échelle de l'entraînement décentralisé avec un parallélisme de modèle efficace en communication : La mise à l'échelle des modèles a conduit à des avancées significatives dans l'apprentissage profond, mais l'entraînement de ces modèles dans des environnements décentralisés reste un défi en raison des goulets d'étranglement de communication. Bien que les techniques de compression existantes soient efficaces en parallèle de données, elles ne s'étendent pas au parallélisme de modèle. Contrairement à l'entraînement en parallèle de données, où les gradients de poids sont échangés, le parallélisme de modèle nécessite de compresser les activations et les gradients d'activation au fur et à mesure qu'ils se propagent à travers les couches, accumulant des erreurs de compression. Nous proposons un nouvel algorithme de compression qui compresse à la fois les passes avant et arrière, permettant jusqu'à 99 % de compression sans dégradation de la convergence avec un surcoût mémoire/compute négligeable. En tirant parti d'une structure récursive dans les réseaux de transformateurs, nous définissons à l'avance un sous-espace de faible dimension pour confiner les activations et les gradients, permettant une reconstruction complète dans les couches suivantes. Notre méthode atteint jusqu'à 100x d'amélioration de l'efficacité de communication et permet d'entraîner des modèles à échelle de milliards de paramètres sur des GPU bas de gamme connectés via des vitesses Internet grand public aussi basses que 80 Mbps, égalant la convergence des systèmes de datacenter centralisés avec des connexions de 100 Gbps avec parallélisme de modèle. 2) Mélanges de sous-espaces pour un entraînement contextuel parallèle efficace en bande passante : Le préentraînement de modèles linguistiques avec des fenêtres de contexte étendues améliore leur capacité à tirer parti d'informations riches lors de la génération. Les méthodes existantes divisent les séquences d'entrée en morceaux, les diffusent sur plusieurs appareils et calculent l'attention bloc par bloc, ce qui entraîne des frais de communication significatifs. Bien que réalisables dans des clusters à haute vitesse, ces méthodes sont impraticables pour l'entraînement décentralisé sur des connexions à faible bande passante. Nous proposons une méthode de compression pour un parallélisme contextuel efficace en communication dans des environnements décentralisés, atteignant un taux de compression remarquable de plus de 95 % avec un surcoût négligeable et sans perte de convergence. Notre idée clé est d'exploiter la structure intrinsèque de faible rang des sorties d'activation en les contraignant dynamiquement à des mélanges appris de sous-espaces via des reparamétrisations efficaces. Nous démontrons la mise à l'échelle de modèles décentralisés à milliards de paramètres à des longueurs de contexte dépassant 100K tokens sur des réseaux aussi lents que 300 Mbps, égalant la vitesse de convergence en temps réel des modèles centralisés sur des interconnexions de 100 Gbps. 3) Modèles de protocole inextraitables : Entraînement collaboratif et inférence sans matérialisation des poids : Nous considérons un cadre d'entraînement décentralisé dans lequel les participants entraînent et servent collaborativement un grand réseau de neurones, et où chaque participant ne traite qu'un sous-ensemble du modèle. Dans ce cadre, nous explorons la possibilité de poids non matérialisables, où un ensemble complet de poids n'est jamais disponible pour un participant. Nous introduisons les Modèles de Protocole Inextraitables (UPMs) : un cadre d'entraînement et d'inférence qui exploite la configuration de modèle fragmenté pour garantir que les fragments de modèle (c'est-à-dire, les sous-ensembles) détenus par les participants sont incompatibles à différents moments. Les UPM injectent périodiquement des transformations aléatoires, inversibles et variant dans le temps aux frontières des participants ; préservant la fonction globale du réseau tout en rendant les assemblages inter-temporels incohérents. Sur Qwen-2.5-0.5B et Llama-3.2-1B, 10 000 transformations laissent l'entropie FP 32 inchangée (PPL dérive de Jensen–Shannon). L'application d'une transformation toutes les 30 secondes ajoute 3 % de latence, 0,1 % de bande passante et 10 % de surcoût mémoire GPU lors de l'inférence, tandis que le surcoût d'entraînement tombe à 1,6 % de temps et < 1 % de mémoire. Nous considérons plusieurs attaques, montrant que les exigences des attaques directes sont impraticables et faciles à défendre, et que le réglage fin basé sur le gradient des partitions assemblées consomme des tokens nécessaires pour s'entraîner depuis le début. En permettant aux modèles d'être entraînés collaborativement mais non extraits, les UPM rendent pratique l'intégration de mécanismes d'incitation programmatiques dans l'entraînement décentralisé piloté par la communauté.

Meilleurs

Classement

Favoris