ByteDance увімкнено 🔥 Після чудового SeeDream вони (з Tsinghua) випускають HuMo 17B і 1.7B, орієнтовані на людину відеомоделі з мультимодальними входами (зображення, текст і аудіо) з Apache 2.0! Здається SOTA серед відеомоделей OSS, хоча довжина до 4 с Переглянути більше прикладів і посилань 🧵