Berpindah dari VLLM V0 ke V1 membuat pelatihan RL Asinkron kami mogok! Baca cara kami memperbaikinya Kami baru-baru ini bermigrasi dari v0 ke v1 sebagai bagian dari refactor Prime-RL yang lebih besar untuk membuatnya lebih mudah digunakan, lebih berperforma, dan secara alami tidak sinkron. Kami mengonfirmasi dinamika pelatihan yang benar pada banyak eksekusi skala kecil, tetapi menabrak tembok saat mencoba mereproduksi eksekusi skala yang lebih besar yang berjalan tanpa masalah sebelum pemfaktoran ulang. Secara khusus, melatih DeepSeek-R1-Distill-Qwen-1.5B pada masalah matematika satu putaran dari kumpulan data matematika INTELLECT-2 kami pada konteks 8k dengan penundaan dua langkah di luar kebijakan akan merusak sekitar 400 langkah ke dalam pelatihan
38,08K