热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
向量索引与向量数据库,清晰解释!
大多数人将这两个术语互换使用。这是一个错误。
这样想:
向量索引是一种算法。它将你的向量组织成一个可搜索的结构(如 HNSW),并快速找到相似的项目。FAISS 是一个很好的例子。
但仅仅有一个算法并不能处理存储、过滤或扩展。它只是进行搜索。
向量数据库将该索引与你所需的其他所有内容结合在一起——分布式存储、元数据过滤、持久性和并发访问。
它还为你提供了索引的灵活性。HNSW、IVF、DiskANN——不同的技术在速度、准确性和内存之间进行不同的权衡。Milvus 是一个很好的例子。
所以,一个是组件。另一个是系统。
这种区别在你达到规模时感觉学术。然后它变得昂贵。
一家自动驾驶公司对此深有体会。
他们正在为驾驶录像构建一个搜索系统——大规模。每次行程生成帧;每帧成为一个向量嵌入。
工程师需要查询像“夜间城市交叉口有行人”的场景,跨越几个月的数据。
FAISS 是自然的起点。快速、轻量、易于设置。
但随着数据的增长,每天的嵌入变成了一个单独的索引文件。
几个月后:数十万个孤立的文件。
...
热门
排行
收藏
