ByteDance está en 🔥 Después del excelente SeeDream, ellos (junto con Tsinghua) lanzan HuMo 17B y 1.7B, modelos de video centrados en el ser humano con entradas multimodales (Imagen, Texto y Audio) con Apache 2.0! Parece ser el SOTA entre los modelos de video OSS, aunque la duración es de hasta 4s Ve más ejemplos y enlaces 🧵