Skalbar tillsyn är i stort sett det sista stora forskningsproblemet som finns kvar. När du väl har fått en ohackbar belöningsfunktion för vad som helst så kan du RL på allt.
154,35K