Hace unos días vi un video titulado "Sueño de Espejo", que tenía sonido e imagen, y la coherencia entre el sonido y la imagen era muy buena. Ahora la generación de imágenes en video ya está bastante madura, pero fusionar sonido e imagen, alineando con precisión los movimientos de los labios, las expresiones y la voz, sigue siendo complicado. Más tarde supe que este video fue completamente generado por el modelo de video de Baidu Steam Engine, que puede soportar muy bien la generación de sonido, especialmente la voz en chino.
10,8K