Alguns dias atrás, eu escovei um vídeo "Mirror Dream Edge", há som e imagem, a consistência do som e da imagem é muito boa, e agora o vídeo de geração de imagem é relativamente maduro, mas o som e a imagem estão integrados, e não é fácil alinhar com precisão o formato da boca, expressão e voz. Mais tarde, soube que este vídeo é totalmente gerado pelo modelo de vídeo do motor a vapor do Baidu, que pode suportar muito bem a geração de vozes, especialmente a fala chinesa.
15,89K