ByteDanceがオン🔥になっています 優れたSeeDreamの後、彼らは(清華社と)Apache 2.0を使用したマルチモーダル入力(画像、テキスト、オーディオ)を備えた人間中心のビデオモデルであるHuMo 17Bおよび1.7Bをリリースしました。 OSSビデオモデルの中ではSOTAのようですが、長さは最大4秒です その他の例とリンク🧵を見る