Chỉ với vài dòng mã, giải pháp được Feng (@fengyao1909) đề xuất—áp dụng phương pháp lấy mẫu quan trọng trên chính sách hành vi—đã giải quyết được sự không ổn định trong quá trình huấn luyện của tôi (oat). Tôi tin rằng kết quả này có thể tổng quát cho các khung RL khác nữa. Công việc tuyệt vời, Feng!
39,24K