ByteDance is aan 🔥 Na de uitstekende SeeDream, brengen zij (samen met Tsinghua) HuMo 17B en 1.7B uit, mensgerichte videomodellen met multimodale invoer (Afbeelding, Tekst en Audio) met Apache 2.0! Lijkt SOTA onder OSS videomodellen, hoewel de lengte tot 4s is Bekijk meer voorbeelden & links 🧵