ByteDance er i gang 🔥 Etter den utmerkede SeeDream, slipper de (med Tsinghua) HuMo 17B og 1.7B, menneskesentriske videomodeller med multimodale innganger (bilde, tekst og lyd) med Apache 2.0! Virker SOTA blant OSS-videomodeller, selv om lengden er opptil 4s Se flere eksempler og lenker 🧵