Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Últimas novedades del blog de Tencent HY Research: Conectando la infraestructura LLM y el desarrollo de algoritmos. 🚀
Estamos abriendo el código GradLoc: una herramienta de diagnóstico de caja blanca que rastrea picos de gradiente hasta el token culpable exacto en tiempo O(log N).
Escalar RLVR ya no tiene que ser una batalla contra picos de gradiente "caja negra". Pasando del ensayo y error heurístico al diagnóstico de ingeniería determinista.
Blog:
GitHub:


🔍 De picos globales a tokens individuales
La monitorización estándar solo te avisa cuando ocurre un pico de gradiente. GradLoc te dice dónde. Usando búsqueda binaria distribuida, aísla el token específico que causa el pico con una sobrecarga amortizada insignificante. Es un depurador "siempre activo" para la formación de LLM.
💡 Nuevo modo de colapso descubierto
No siempre es "datos sucios" o "desajuste entre entrenamiento e inferencia". GradLoc reveló la heterogeneidad del gradiente por capa: los tokens pueden tener proporciones de muestreo de importancia (IS) "seguras" pero aun así provocar que ciertas capas exploten mientras otras permanecen estables. El recorte global estándar es una herramienta demasiado directa para esto.
🛡️ La solución: LayerClip
Para abordar la heterogeneidad de gradientes por capas, proponemos el recorte de gradientes por capas. En lugar de un clamp global uniforme, LayerClip aplica restricciones adaptativas basadas en estadísticas locales de la capa. Este control detallado estabiliza el entrenamiento RLVR donde fallan los métodos estándar.
🚀 Trabajo futuro
El RLVR necesita una mejor observabilidad de ingeniería para una comprensión y análisis más profundos. Estamos abriendo GradLoc para reducir la barrera de diagnósticos de gran detalle. Esperamos que esto ayude a la comunidad a mirar dentro de la "caja negra" de la ingeniería y avanzar hacia la optimización desde los primeros principios.
2.41K
Populares
Ranking
Favoritas
