Há alguns dias, vi um vídeo chamado "Jing Meng Yuan", que tinha som e imagem, e a consistência entre o som e a imagem era muito boa. Agora, a geração de vídeos a partir de imagens já está bastante madura, mas a fusão do som e da imagem, alinhando precisamente os movimentos labiais, expressões e a voz, ainda não é fácil. Depois, descobri que este vídeo foi completamente gerado pelo modelo de vídeo Steam Engine da Baidu, que suporta muito bem a geração de som, especialmente a voz em chinês.
13,05K