Vor ein paar Tagen habe ich ein Video mit dem Titel "Jingmengyuan" gesehen, das sowohl Ton als auch Bild hat. Die Konsistenz zwischen Ton und Bild ist sehr gut. Heutzutage ist die Generierung von Bildern zu Videos bereits recht ausgereift, aber die Integration von Ton und Bild, insbesondere das präzise Abstimmen von Mundbewegungen, Gesichtsausdrücken und Sprache, ist immer noch nicht einfach. Später habe ich erfahren, dass dieses Video vollständig mit dem Video-Modell von Baidu Steam Engine generiert wurde, das die Tonerzeugung sehr gut unterstützt, insbesondere für chinesische Sprache.
9,54K