数日前にビデオ「ミラードリームエッジ」をブラッシングしましたが、音と画像があり、音と画像の一貫性が非常に良く、画像生成ビデオは比較的成熟していますが、音と画像は統合されており、口の形、表情、声を正確に揃えるのは簡単ではありません。 後で、このビデオは完全に Baidu の蒸気機関ビデオ モデルによって生成されており、音声、特に中国語の音声の生成を非常にうまくサポートできることを知りました。
9.53K