VLLM V0 から V1 に移行すると、非同期 RL トレーニングがクラッシュしました。修正方法を読む 最近、Prime-RL の大規模なリファクタリングの一環として v0 から v1 に移行し、より使いやすく、パフォーマンスが高く、自然に非同期にしました。多くの小規模な実行で正しいトレーニングダイナミクスを確認しましたが、リファクタリング前に問題なく実行された大規模な実行を再現しようとすると壁にぶつかりました。具体的には、INTELLECT-2 数学データセットの 1 ターン数学問題で DeepSeek-R1-Distill-Qwen-1.5B を 8k コンテキストで 2 ステップオフポリシー遅延でトレーニングすると、トレーニングの約 400 ステップで致命的なクラッシュが発生する
40.33K