Giám sát có thể mở rộng gần như là vấn đề nghiên cứu lớn cuối cùng còn lại. Khi bạn có một hàm thưởng không thể bị hack cho bất kỳ điều gì, thì bạn có thể áp dụng RL cho mọi thứ.
154,35K