La supervisión escalable es prácticamente el último gran problema de investigación que queda. Una vez que obtenga una función de recompensa imposible de piratear para cualquier cosa, puede RL en todo.
154.35K