スケーラブルな監視は、残された最後の大きな研究問題です。 ハッキング不可能な報酬関数を手に入れたら、すべてに対してRLを行うことができます。
154.35K