Chỉ số vector so với cơ sở dữ liệu vector, được giải thích rõ ràng! Hầu hết mọi người sử dụng những thuật ngữ này thay thế cho nhau. Đó là một sai lầm. Hãy nghĩ theo cách này: Một chỉ số vector là một thuật toán. Nó lấy các vector của bạn, tổ chức chúng thành một cấu trúc có thể tìm kiếm (như HNSW), và tìm các mục tương tự nhanh chóng. FAISS là một ví dụ tốt. Nhưng chỉ một thuật toán không xử lý lưu trữ, lọc, hoặc quy mô. Nó chỉ tìm kiếm. Một cơ sở dữ liệu vector bao bọc chỉ số đó với mọi thứ bạn cần - lưu trữ phân tán, lọc siêu dữ liệu, tính bền vững, và truy cập đồng thời. Nó cũng cho bạn sự linh hoạt trong cách bạn lập chỉ mục. HNSW, IVF, DiskANN - các kỹ thuật khác nhau cho các thỏa hiệp khác nhau giữa tốc độ, độ chính xác, và bộ nhớ. Milvus là một ví dụ tốt. Vì vậy, một cái là một thành phần. Cái kia là một hệ thống. Sự phân biệt này có vẻ học thuật cho đến khi bạn gặp quy mô. Sau đó, nó trở nên đắt đỏ. Một công ty lái xe tự động đã học điều này theo cách khó khăn. Họ đang xây dựng một hệ thống tìm kiếm cho các đoạn video lái xe - quy mô khổng lồ. Mỗi chuyến đi tạo ra các khung hình; mỗi khung hình trở thành một nhúng vector. Các kỹ sư cần truy vấn các kịch bản như "các giao lộ đô thị vào ban đêm có người đi bộ" trên nhiều tháng dữ liệu. FAISS là điểm khởi đầu tự nhiên. Nhanh, nhẹ, dễ thiết lập. Nhưng khi dữ liệu tăng lên, các nhúng của mỗi ngày trở thành một tệp chỉ số riêng biệt. Sau vài tháng: hàng trăm nghìn tệp tách biệt. ...