A ByteDance está em chamas 🔥 Após o excelente SeeDream, eles (com a Tsinghua) lançam os modelos de vídeo HuMo 17B e 1.7B, centrados no ser humano, com entradas multimodais (Imagem, Texto e Áudio) com Apache 2.0! Parece ser o SOTA entre os modelos de vídeo OSS, embora a duração seja de até 4s Veja mais exemplos e links 🧵