Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL rất nhạy cảm với các số liệu, lần trước torch compile đã khiến một số lần chạy bị sập, giờ là vllm v1

11:23 12 thg 8
việc chuyển từ vllm v0 sang v1 đã khiến việc đào tạo rl bất đồng bộ của chúng tôi bị sập! đọc cách chúng tôi đã khắc phục điều đó
chúng tôi gần đây đã di chuyển từ v0 sang v1 như một phần của việc tái cấu trúc lớn hơn của prime-rl để làm cho nó dễ sử dụng hơn, hiệu suất cao hơn và tự nhiên là bất đồng bộ. chúng tôi đã xác nhận động lực đào tạo đúng trên nhiều lần chạy quy mô nhỏ hơn, nhưng đã gặp phải một bức tường khi cố gắng tái tạo một lần chạy quy mô lớn hơn mà không gặp vấn đề gì trước khi tái cấu trúc. Cụ thể, việc đào tạo DeepSeek-R1-Distill-Qwen-1.5B trên các bài toán toán học một lần từ bộ dữ liệu toán học INTELLECT-2 của chúng tôi với ngữ cảnh 8k và độ trễ off-policy hai bước sẽ bị sập fatally khoảng 400 bước vào quá trình đào tạo.

6,7K
Hàng đầu
Thứ hạng
Yêu thích