ByteDance ist auf 🔥 Nach dem hervorragenden SeeDream veröffentlichen sie (mit Tsinghua) HuMo 17B und 1.7B, menschenzentrierte Videomodelle mit multimodalen Eingaben (Bild, Text und Audio) mit Apache 2.0! Scheint SOTA unter OSS-Videomodellen zu sein, obwohl die Länge bis zu 4s beträgt. Siehe weitere Beispiele & Links 🧵