La supervisione scalabile è praticamente l'ultimo grande problema di ricerca rimasto. Una volta che ottieni una funzione di ricompensa impenetrabile per qualsiasi cosa, allora puoi applicare l'apprendimento per rinforzo a tutto.
154,36K