A supervisão escalável é praticamente o último grande problema de pesquisa que resta. Uma vez que você tenha uma função de recompensa inquebrável para qualquer coisa, então você pode aplicar RL em tudo.
154,34K