Schaalbare toezicht is vrijwel het laatste grote onderzoeksprobleem dat nog over is. Zodra je een onhackbare beloningsfunctie voor iets hebt, kun je RL op alles toepassen.
154,34K