ByteDance está encendido 🔥 Después del excelente SeeDream, ellos (con Tsinghua) lanzan HuMo 17B y 1.7B, modelos de video centrados en humanos con entradas multimodales (imagen, texto y audio) con Apache 2.0. Parece SOTA entre los modelos de video OSS, aunque la duración es de hasta 4 segundos Ver más ejemplos y enlaces 🧵