ByteDance está ativado 🔥 Após o excelente SeeDream, eles (com Tsinghua) lançam o HuMo 17B e 1.7B, modelos de vídeo centrados no ser humano com entradas multimodais (Imagem, Texto e Áudio) com Apache 2.0! Parece SOTA entre os modelos de vídeo OSS, embora a duração seja de até 4s Veja mais exemplos e links 🧵