Kilka dni temu natknąłem się na wideo "Lustro snów", które miało dźwięk i obraz. Zgodność dźwięku i obrazu była bardzo dobra. Obecnie generowanie obrazów wideo jest już dość zaawansowane, ale połączenie dźwięku i obrazu, precyzyjne dopasowanie ruchu warg, wyrazu twarzy i mowy wciąż nie jest łatwe. Później dowiedziałem się, że to wideo zostało całkowicie wygenerowane przez model wideo Baidu Steam Engine, który bardzo dobrze wspiera generowanie dźwięku, zwłaszcza chińskiej mowy.
10,79K