ByteDance è in 🔥 Dopo l'ottimo SeeDream, rilasciano HuMo 17B e 1.7B, modelli video centrati sull'uomo con input multimodali (Immagine, Testo e Audio) con Apache 2.0! Sembra SOTA tra i modelli video OSS, anche se la lunghezza è fino a 4s Guarda altri esempi e link 🧵