可擴展的監督幾乎是最後一個重大研究問題。 一旦你為任何事物獲得了一個不可破解的獎勵函數,那麼你就可以在所有事物上進行強化學習。
154.36K