To jest niesamowite. Mogę dostrzec model RL z daleka. Wygląda bardzo podobnie do projektu uczenia przez wzmocnienie, który zrobiłem w 2018 roku, próbując wytrenować symulację spot mini, którą zbudowałem, aby chodzić. Miałem mnóstwo błędów, ale model RL zawsze znajdował sposób. Podlinkuję wątek na ten temat poniżej