A supervisão escalável é praticamente o último grande problema de pesquisa que resta. Depois de obter uma função de recompensa inviolável para qualquer coisa, você pode RL em tudo.
154,34K