Có vẻ như những người khác đang tập trung vào việc sử dụng vllm v1 logprob cho tỷ lệ quan trọng để khắc phục vấn đề ổn định. Tôi nghĩ tôi bị PTSD từ loại sự cố rl này.
Zichen Liu
Zichen Liu23:35 22 thg 8
Chỉ với vài dòng mã, giải pháp được Feng (@fengyao1909) đề xuất—áp dụng phương pháp lấy mẫu quan trọng trên chính sách hành vi—đã giải quyết được sự không ổn định trong quá trình huấn luyện của tôi (oat). Tôi tin rằng kết quả này có thể tổng quát cho các khung RL khác nữa. Công việc tuyệt vời, Feng!
6,34K