Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL так чувствителен к числам, в прошлый раз компиляция torch вызывала сбой выполнения, теперь vllm v1

12 авг., 11:23
переход с vllm v0 на v1 привел к сбою нашего асинхронного обучения с подкреплением! читайте, как мы это исправили
мы недавно мигрировали с v0 на v1 в рамках более крупной переработки prime-rl, чтобы сделать его более удобным, производительным и естественно асинхронным. мы подтвердили правильную динамику обучения на многих небольших запусках, но столкнулись с проблемой, пытаясь воспроизвести запуск большего масштаба, который работал без проблем до переработки. В частности, обучение DeepSeek-R1-Distill-Qwen-1.5B на одноразовых математических задачах из нашего математического набора данных INTELLECT-2 с контекстом 8k и двухшаговой задержкой вне политики завершалось фатальным сбоем примерно через 400 шагов обучения.

6,7K
Топ
Рейтинг
Избранное