Skalowalny nadzór to praktycznie ostatni duży problem badawczy, który pozostał. Gdy już uzyskasz niehakowalną funkcję nagrody dla czegokolwiek, wtedy możesz stosować RL na wszystkim.
154,35K