我真的对这使视频搜索变得如此简单感到印象深刻。 我认为在目前情况下,使用多模态模型嵌入完整帧并不是一个好主意,而这是正确的方向。 不过,这在未来可能会改变!视频搜索仍然非常初期,这绝对是一项创新。
Inference
Inference8月19日 07:28
@grass 为 ClipTagger-12B 开发的架构真的很特别。 一旦你开始搜索庞大的视频数据集,使用元数据过滤器来筛选对象、制作质量、标志或动作就变得非常宝贵。 我们训练的模型很棒,但这是他们带给我们的真正创新。
2.36K