ByteDance jest na 🔥 Po doskonałym SeeDream, oni (w/ Tsinghua) wydają HuMo 17B i 1.7B, modele wideo skoncentrowane na człowieku z multimodalnymi wejściami (Obraz, Tekst i Dźwięk) w/ Apache 2.0! Wydaje się, że są SOTA wśród modeli wideo OSS, chociaż długość wynosi do 4s Zobacz więcej przykładów i linków 🧵