永远不要忘记2018年Paul Christiano的GOAT论文,它首次将强化学习与IP联系起来。