分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

VLLM V0 から V1 に移行すると、非同期 RL トレーニングがクラッシュしました。修正方法を読む最近、Prime-RL の大規模なリファクタリングの一環として v0 から v1 に移行し、より使いやすく、パフォーマンスが高く、自然に非同期にしました。多くの小規模な実行で正しいトレーニングダイナミクスを確認しましたが、リファクタリング前に問題なく実行された大規模な実行を再現しようとすると壁にぶつかりました。具体的には、INTELLECT-2 数学データセットの 1 ターン数学問題で DeepSeek-R1-Distill-Qwen-1.5B を 8k コンテキストで 2 ステップオフポリシー遅延でトレーニングすると、トレーニングの約 400 ステップで致命的なクラッシュが発生する

40.33K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable