Últimas novidades do blog Tencent HY Research: Conectando LLM Infra e desenvolvimento de algoritmos. 🚀   Estamos abrindo o código GradLoc: uma ferramenta de diagnóstico white-box que rastreia picos de gradiente até o token culpado exato em tempo O(log N).   Escalar RLVR não precisa mais ser uma batalha contra picos de gradiente "caixa preta". Passando de tentativa e erro heurística para diagnósticos de engenharia determinísticos.   Blog: GitHub:
🔍 De picos globais a tokens únicos   O monitoramento padrão só avisa quando ocorre um pico de gradiente. O GradLoc te diz onde. Usando busca binária distribuída, ele isola o token específico que causa o pico com overhead amortizado desprezível. É um depurador "sempre ligado" para treinamento de LLM.
💡 Novo Modo de Colapso Descoberto   Nem sempre é "dados sujos" ou "descompasso entre treinamento e inferência". O GradLoc revelou Heterogeneidade do Gradiente por Camadas: Tokens podem ter razões de Amostragem de Importância (IS) "seguras", mas ainda assim causar a explosão de camadas específicas enquanto outras permanecem estáveis. O global clipping padrão é uma ferramenta muito direta para isso.
🛡️ A Solução: LayerClip   Para abordar a Heterogeneidade do Gradiente por Camadas, propomos o Recorte de Gradiente por Camada. Em vez de um clamp global uniforme, o LayerClip aplica restrições adaptativas baseadas em estatísticas locais da camada. Esse controle detalhado estabiliza o treinamento RLVR onde os métodos padrão falham.
🚀 Trabalhos futuros   O RLVR precisa de melhor observabilidade de engenharia para um entendimento e análise mais profundos. Estamos abrindo o código do GradLoc para reduzir a barreira de diagnósticos detalhados. Esperamos que isso ajude a comunidade a olhar para dentro da "caixa-preta" da engenharia e avançar para a otimização a partir dos princípios básicos.
2,41K