Finns det några bra bild-till-video-modeller som kan hantera konversationer mellan två eller flera karaktärer? (där du kan ladda upp en dialog med mer än en talare, och den matchar karaktärerna som talar)