Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Последние новости из блога Tencent HY Research: Соединение инфраструктуры LLM и разработки алгоритмов. 🚀
Мы открываем исходный код GradLoc: инструмента диагностики с открытым исходным кодом, который отслеживает всплески градиента до точного виновника токена за O(log N) времени.
Масштабирование RLVR больше не должно быть борьбой с "черными ящиками" всплесков градиента. Переход от эвристического проб и ошибок к детерминированной инженерной диагностике.
Блог:
GitHub:


🔍 От глобальных всплесков к отдельным токенам
Стандартный мониторинг только сообщает вам, когда происходит всплеск градиента. GradLoc показывает, где это происходит. Используя распределенный бинарный поиск, он изолирует конкретный токен, вызывающий всплеск, с незначительными амортизированными затратами. Это "всегда включенный" отладчик для обучения LLM.
💡 Обнаружен новый режим коллапса
Это не всегда "грязные данные" или "несоответствие обучения и вывода." GradLoc выявил гетерогенность градиентов по слоям: токены могут иметь "безопасные" коэффициенты важности выборки (IS), но все равно вызывать взрыв в определенных слоях, в то время как другие остаются стабильными. Стандартное глобальное обрезание слишком грубый инструмент для этого.
🛡️ Решение: LayerClip
Чтобы решить проблему гетерогенности градиентов на уровне слоев, мы предлагаем обрезку градиентов на уровне слоев. Вместо единого глобального ограничения, LayerClip применяет адаптивные ограничения на основе локальной статистики слоев. Этот детализированный контроль стабилизирует обучение RLVR, где стандартные методы терпят неудачу.
🚀 Будущее работы
RLVR нуждается в лучшей инженерной наблюдаемости для более глубокого понимания и анализа. Мы открываем исходный код GradLoc, чтобы снизить барьер для детальной диагностики. Мы надеемся, что это поможет сообществу заглянуть внутрь инженерной "черной коробки" и двигаться к оптимизации с первых принципов.
2,23K
Топ
Рейтинг
Избранное
