ByteDance на 🔥 После отличного SeeDream они (вместе с Цинхуа) выпустили HuMo 17B и 1.7B, модели видео, ориентированные на человека, с мультимодальными входами (изображение, текст и аудио) с лицензией Apache 2.0! Кажется, это SOTA среди OSS видео моделей, хотя длина составляет до 4 секунд. Смотрите больше примеров и ссылок 🧵