ByteDance est en 🔥 Après l'excellent SeeDream, ils (avec Tsinghua) lancent HuMo 17B et 1.7B, des modèles vidéo centrés sur l'humain avec des entrées multimodales (Image, Texte et Audio) avec Apache 2.0 ! On dirait que c'est SOTA parmi les modèles vidéo OSS, bien que la durée soit limitée à 4s. Voir plus d'exemples et de liens 🧵