Несколько дней назад я наткнулся на видео «Зеркальные мечты», в котором есть звук и изображение, и их согласованность очень хороша. В настоящее время технологии генерации видео уже достаточно развиты, но интеграция звука и изображения, точное согласование движений губ, выражений и речи все еще представляет собой сложную задачу. Позже я узнал, что это видео полностью сгенерировано с помощью модели видео Baidu Steam Engine, которая очень хорошо поддерживает генерацию звука, особенно китайской речи.
10,8K