我真的對這使視頻搜索變得如此簡單感到印象深刻。 我認為在目前情況下,使用多模態模型嵌入完整幀並不是一個好主意,而這是正確的方向。 不過,這在未來可能會改變!視頻搜索仍然非常初期,這絕對是一項創新。
Inference
Inference8月19日 07:28
@grass 為 ClipTagger-12B 開發的架構真的很特別。 一旦你開始搜尋龐大的視頻數據集,使用元數據過濾器來篩選對象、製作質量、標誌或動作就變得非常寶貴。 我們訓練的模型很棒,但這是他們帶給我們的真正創新。
2.37K