前几天刷到一条视频《镜梦缘》,有声音有画面,声音和画面的一致性都很好,现在画面生成视频已经比较成熟了,但声音和画面融合,精准将口型、表情和语音对齐还是不容易。后来了解到这个视频是完全是由百度蒸汽机视频模型生成的,能非常好的支持声音的生成,尤其是中文语音。
10.79K