Últimas novedades del blog de Tencent HY Research: Conectando la infraestructura LLM y el desarrollo de algoritmos. 🚀   Estamos abriendo el código GradLoc: una herramienta de diagnóstico de caja blanca que rastrea picos de gradiente hasta el token culpable exacto en tiempo O(log N).   Escalar RLVR ya no tiene que ser una batalla contra picos de gradiente "caja negra". Pasando del ensayo y error heurístico al diagnóstico de ingeniería determinista.   Blog: GitHub:
🔍 De picos globales a tokens individuales   La monitorización estándar solo te avisa cuando ocurre un pico de gradiente. GradLoc te dice dónde. Usando búsqueda binaria distribuida, aísla el token específico que causa el pico con una sobrecarga amortizada insignificante. Es un depurador "siempre activo" para la formación de LLM.
💡 Nuevo modo de colapso descubierto   No siempre es "datos sucios" o "desajuste entre entrenamiento e inferencia". GradLoc reveló la heterogeneidad del gradiente por capa: los tokens pueden tener proporciones de muestreo de importancia (IS) "seguras" pero aun así provocar que ciertas capas exploten mientras otras permanecen estables. El recorte global estándar es una herramienta demasiado directa para esto.
🛡️ La solución: LayerClip   Para abordar la heterogeneidad de gradientes por capas, proponemos el recorte de gradientes por capas. En lugar de un clamp global uniforme, LayerClip aplica restricciones adaptativas basadas en estadísticas locales de la capa. Este control detallado estabiliza el entrenamiento RLVR donde fallan los métodos estándar.
🚀 Trabajo futuro   El RLVR necesita una mejor observabilidad de ingeniería para una comprensión y análisis más profundos. Estamos abriendo GradLoc para reducir la barrera de diagnósticos de gran detalle. Esperamos que esto ayude a la comunidad a mirar dentro de la "caja negra" de la ingeniería y avanzar hacia la optimización desde los primeros principios.
2.41K