可扩展的监督几乎是最后一个重大研究问题。 一旦你为任何事物获得了一个不可破解的奖励函数,那么你就可以在所有事物上进行强化学习。
154.36K