Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Перехід з VLLM V0 на V1 призвів до збою нашого тренування Async RL! Читайте, як ми це виправили
Нещодавно ми перейшли з V0 на V1 в рамках більшого рефакторингу Prime-RL, щоб зробити його простішим у використанні, більш продуктивним і, природно, асинхронним. Ми підтвердили правильну динаміку тренувань на багатьох пробіжках меншого масштабу, але вдарилися об стіну, намагаючись відтворити біг більшого масштабу, який пробігав без проблем до рефакторингу. Зокрема, тренування DeepSeek-R1-Distill-Qwen-1.5B на однооборотних математичних задачах з нашого математичного набору INTELLECT-2 в контексті 8k з двоетапною затримкою відхилення від політики фатально зазнає фатального збою приблизно через 400 кроків тренування

40,36K
Найкращі
Рейтинг
Вибране