Масштабируемый контроль — это практически последняя большая исследовательская проблема. Как только вы получите неуязвимую функцию вознаграждения для чего угодно, вы сможете применять RL ко всему.
154,35K