Skalierbare Aufsicht ist praktisch das letzte große Forschungsproblem, das noch übrig ist. Sobald du eine unhackbare Belohnungsfunktion für irgendetwas hast, kannst du RL auf alles anwenden.
154,35K