Il y a quelques jours, j'ai vu une vidéo intitulée "Miroir des rêves", avec du son et des images. La cohérence entre le son et les images est très bonne. Maintenant, la génération d'images en vidéo est déjà assez mature, mais fusionner le son et les images, en alignant précisément les mouvements des lèvres, les expressions et la voix, reste difficile. J'ai ensuite appris que cette vidéo a été entièrement générée par le modèle vidéo Steam de Baidu, qui supporte très bien la génération de son, en particulier pour la voix chinoise.
10,79K