Qualche giorno fa ho visto un video intitolato "Mirror Dream Fate", con audio e immagini, e la coerenza tra audio e immagini era molto buona. Ora la generazione di video a partire da immagini è già abbastanza matura, ma fondere audio e immagini, allineando con precisione le labbra, le espressioni e la voce, è ancora difficile. Successivamente ho scoperto che questo video è stato completamente generato dal modello video Steam di Baidu, che supporta molto bene la generazione di audio, specialmente per la lingua cinese.
9,53K