La supervisión escalable es prácticamente el último gran problema de investigación que queda. Una vez que obtengas una función de recompensa irrompible para cualquier cosa, entonces podrás aplicar el aprendizaje por refuerzo en todo.
154,34K