ByteDance är igång 🔥 Efter den utmärkta SeeDream, de (w / Tsinghua) släppa HuMo 17B och 1.7B, människocentrerade videomodeller med multimodala ingångar (bild, text och ljud) w / Apache 2.0! Verkar SOTA bland OSS-videomodeller, även om längden är upp till 4s Se fler exempel och länkar 🧵