Skalerbart tilsyn er stort sett det siste store forskningsproblemet som gjenstår. Når du får en uhackbar belønningsfunksjon for noe, kan du RL på alt.
154,34K