Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Los resultados de NeurIPS están disponibles; Pluralis tiene tres artículos aceptados. El primero es el resultado de la investigación central que actualmente está impulsando nuestra ejecución de preentrenamiento abierto 7.5B node0. Los dos segundos también son resultados importantes que integraremos en ejecuciones posteriores. Esto es con un pequeño equipo de <10 personas, realizado mientras se construye el nodo 0.
1) Redes subespaciales: Escalando el entrenamiento descentralizado con un paralelismo de modelos eficiente en la comunicación: El escalado de modelos ha llevado a avances significativos en el aprendizaje profundo, pero el entrenamiento de estos modelos en entornos descentralizados sigue siendo un desafío debido a los cuellos de botella de comunicación. Si bien las técnicas de compresión existentes son efectivas en datos paralelos, no se extienden al paralelismo del modelo. A diferencia del entrenamiento paralelo a los datos, donde se intercambian gradientes de peso, el paralelo del modelo requiere comprimir las activaciones y los gradientes de activación a medida que se propagan a través de las capas, acumulando errores de compresión. Proponemos un nuevo algoritmo de compresión que comprime los pases hacia adelante y hacia atrás, lo que permite una compresión de hasta el 99% sin degradación de la convergencia con una sobrecarga de memoria/computación insignificante. Al aprovechar una estructura recursiva en las redes de transformadores, predefinimos un subespacio de baja dimensión para confinar las activaciones y los gradientes, lo que permite una reconstrucción completa en las capas posteriores. Nuestro método logra una mejora de hasta 100 veces en la eficiencia de la comunicación y permite entrenar modelos a escala de miles de millones de parámetros en GPU de gama baja conectadas a través de velocidades de Internet de nivel de consumidor tan bajas como 80 Mbps, haciendo coincidir la convergencia de sistemas de centros de datos centralizados con conexiones de 100 Gbps con modelos paralelos.
2) Mezclas de subespacios para el entrenamiento paralelo de contexto eficiente en ancho de banda: El entrenamiento previo de modelos de lenguaje con ventanas de contexto extendidas mejora su capacidad para aprovechar información rica durante la generación. Los métodos existentes dividen las secuencias de entrada en trozos, las transmiten a través de múltiples dispositivos y calculan la atención bloque por bloque, lo que incurre en una sobrecarga de comunicación significativa. Si bien son factibles en clústeres de alta velocidad, estos métodos no son prácticos para el entrenamiento descentralizado en conexiones de bajo ancho de banda. Proponemos un método de compresión para el paralelismo de contexto eficiente en la comunicación en entornos descentralizados, logrando una tasa de compresión notable de más del 95% con una sobrecarga insignificante y sin pérdida de convergencia. Nuestra idea clave es explotar la estructura intrínseca de bajo rango de las salidas de activación restringiéndolas dinámicamente a mezclas aprendidas de subespacios a través de reparametrizaciones eficientes. Demostramos escalar modelos descentralizados de miles de millones de parámetros a longitudes de contexto superiores a 100K tokens en redes tan lentas como 300 Mbps, igualando la velocidad de convergencia del reloj de pared de los modelos centralizados en interconexiones de 100 Gbps.
3) Modelos de protocolo no extraíbles: entrenamiento e inferencia colaborativos sin materialización de peso:
Consideramos una configuración de entrenamiento descentralizada en la que los participantes entrenan y sirven en colaboración a una gran red neuronal, y donde cada participante solo procesa un subconjunto del modelo. En esta configuración, exploramos la posibilidad de pesos no materializables, donde un conjunto completo de pesos nunca está disponible para ningún participante. Presentamos los modelos de protocolo no extraíbles (UPM): un marco de entrenamiento e inferencia que aprovecha la configuración del modelo fragmentado para garantizar que los fragmentos del modelo (es decir, subconjuntos) en poder de los participantes sean incompatibles en diferentes pasos de tiempo. Los UPM inyectan periódicamente transformaciones invertibles, aleatorias y variables en el tiempo en los límites de los participantes; conservando la función de red general pero haciendo que los ensamblajes en tiempo cruzado sean incoherentes. En Qwen-2.5-0.5B y Llama-3.2-1B, 10 000 transformaciones dejan la perplejidad de FP 32 sin cambios (deriva de Jensen-Shannon PPL). La aplicación de una transformación cada 30 segundos agrega un 3 % de latencia, un 0,1 % de ancho de banda y un 10 % de sobrecarga de memoria de GPU en la inferencia, mientras que la sobrecarga de entrenamiento cae al 1,6 % de tiempo y < al 1 % de memoria. Consideramos varios ataques, lo que demuestra que los requisitos de los ataques directos son poco prácticos y fáciles de defender, y que el ajuste fino basado en gradientes de las particiones unidas consume los tokens necesarios para entrenar desde cero. Al permitir que los modelos se entrenen en colaboración pero no se extraigan, las UPM hacen que sea práctico incorporar mecanismos de incentivos programáticos en la capacitación descentralizada impulsada por la comunidad.
Populares
Ranking
Favoritas