Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Berpindah dari VLLM V0 ke V1 membuat pelatihan RL Asinkron kami mogok! Baca cara kami memperbaikinya
Kami baru-baru ini bermigrasi dari v0 ke v1 sebagai bagian dari refactor Prime-RL yang lebih besar untuk membuatnya lebih mudah digunakan, lebih berperforma, dan secara alami tidak sinkron. Kami mengonfirmasi dinamika pelatihan yang benar pada banyak eksekusi skala kecil, tetapi menabrak tembok saat mencoba mereproduksi eksekusi skala yang lebih besar yang berjalan tanpa masalah sebelum pemfaktoran ulang. Secara khusus, melatih DeepSeek-R1-Distill-Qwen-1.5B pada masalah matematika satu putaran dari kumpulan data matematika INTELLECT-2 kami pada konteks 8k dengan penundaan dua langkah di luar kebijakan akan merusak sekitar 400 langkah ke dalam pelatihan

33,98K
Teratas
Peringkat
Favorit