向量索引与向量数据库,清晰解释! 大多数人将这两个术语互换使用。这是一个错误。 这样想: 向量索引是一种算法。它将你的向量组织成一个可搜索的结构(如 HNSW),并快速找到相似的项目。FAISS 是一个很好的例子。 但仅仅有一个算法并不能处理存储、过滤或扩展。它只是进行搜索。 向量数据库将该索引与你所需的其他所有内容结合在一起——分布式存储、元数据过滤、持久性和并发访问。 它还为你提供了索引的灵活性。HNSW、IVF、DiskANN——不同的技术在速度、准确性和内存之间进行不同的权衡。Milvus 是一个很好的例子。 所以,一个是组件。另一个是系统。 这种区别在你达到规模时感觉学术。然后它变得昂贵。 一家自动驾驶公司对此深有体会。 他们正在为驾驶录像构建一个搜索系统——大规模。每次行程生成帧;每帧成为一个向量嵌入。 工程师需要查询像“夜间城市交叉口有行人”的场景,跨越几个月的数据。 FAISS 是自然的起点。快速、轻量、易于设置。 但随着数据的增长,每天的嵌入变成了一个单独的索引文件。 几个月后:数十万个孤立的文件。 ...