ByteDance aktif 🔥 Setelah SeeDream yang luar biasa, mereka (dengan Tsinghua) merilis HuMo 17B dan 1.7B, model video yang berpusat pada manusia dengan input multimodal (Gambar, Teks, dan Audio) dengan Apache 2.0! Tampaknya SOTA di antara model video OSS, meskipun panjangnya hingga 4 detik Lihat lebih banyak contoh & tautan 🧵