Кілька днів тому я почистив відео "Mirror Dream Edge", там є звук і картинка, узгодженість звуку і картинки дуже хороша, а зараз відео генерації картинки відносно зріле, але звук і картинка інтегровані, і точно вирівняти форму рота, вираз обличчя і голос непросто. Пізніше я дізнався, що це відео повністю згенероване відеомоделлю Baidu з паровим двигуном, яка може дуже добре підтримувати генерацію голосів, особливо китайської мови.
9,53K