Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Akshay 🚀
Đơn giản hóa LLM, Tác nhân AI, RAG và Machine Learning cho bạn! • Đồng sáng lập @dailydoseofds_• BITS Pilani • 3 Bằng sáng chế • Cựu Kỹ sư AI @ LightningAI
Chỉ số vector so với cơ sở dữ liệu vector, được giải thích rõ ràng!
Hầu hết mọi người sử dụng những thuật ngữ này thay thế cho nhau. Đó là một sai lầm.
Hãy nghĩ theo cách này:
Một chỉ số vector là một thuật toán. Nó lấy các vector của bạn, tổ chức chúng thành một cấu trúc có thể tìm kiếm (như HNSW), và tìm các mục tương tự nhanh chóng. FAISS là một ví dụ tốt.
Nhưng chỉ một thuật toán không xử lý lưu trữ, lọc, hoặc quy mô. Nó chỉ tìm kiếm.
Một cơ sở dữ liệu vector bao bọc chỉ số đó với mọi thứ bạn cần - lưu trữ phân tán, lọc siêu dữ liệu, tính bền vững, và truy cập đồng thời.
Nó cũng cho bạn sự linh hoạt trong cách bạn lập chỉ mục. HNSW, IVF, DiskANN - các kỹ thuật khác nhau cho các thỏa hiệp khác nhau giữa tốc độ, độ chính xác, và bộ nhớ. Milvus là một ví dụ tốt.
Vì vậy, một cái là một thành phần. Cái kia là một hệ thống.
Sự phân biệt này có vẻ học thuật cho đến khi bạn gặp quy mô. Sau đó, nó trở nên đắt đỏ.
Một công ty lái xe tự động đã học điều này theo cách khó khăn.
Họ đang xây dựng một hệ thống tìm kiếm cho các đoạn video lái xe - quy mô khổng lồ. Mỗi chuyến đi tạo ra các khung hình; mỗi khung hình trở thành một nhúng vector.
Các kỹ sư cần truy vấn các kịch bản như "các giao lộ đô thị vào ban đêm có người đi bộ" trên nhiều tháng dữ liệu.
FAISS là điểm khởi đầu tự nhiên. Nhanh, nhẹ, dễ thiết lập.
Nhưng khi dữ liệu tăng lên, các nhúng của mỗi ngày trở thành một tệp chỉ số riêng biệt.
Sau vài tháng: hàng trăm nghìn tệp tách biệt.
Tìm kiếm trên nhiều ngày có nghĩa là truy cập nhiều tệp đồng thời. Các truy vấn như "camera hướng về phía trước trong mưa nhẹ trên các con đường đô thị" yêu cầu các cơ sở dữ liệu tùy chỉnh, lập kế hoạch truy vấn, và logic lọc được xây dựng xung quanh FAISS.
Hàng tỷ vector. Không có con đường rõ ràng phía trước.
Đây chính xác là nơi các cơ sở dữ liệu vector xuất hiện - và lý do công ty đã chuyển sang Milvus.
Sự khác biệt là ngay lập tức:
↳ Các truy vấn đơn lẻ kết hợp độ tương đồng vector với các bộ lọc siêu dữ liệu
↳ Dữ liệu được tổ chức thành các bộ sưu tập và phân vùng, không phải các tệp rải rác
↳ Hàng chục tỷ vector, hơn một năm trong sản xuất, không có sự cố lớn nào
↳ Giảm 30% chi phí hạ tầng
↳ 10x không gian mở rộng đã được chứng minh
Đây không phải là một vấn đề độc nhất. Hầu hết các doanh nghiệp đều gặp phải bức tường tương tự - bắt đầu với một chỉ số nhẹ, sau đó hoảng loạn khi họ cần lọc, tính bền vững, hoặc quy mô.
Các cơ sở dữ liệu vector tồn tại chính xác cho sự chuyển tiếp này.
Điều làm cho Milvus nổi bật là cách nó xử lý quy mô và sự đa dạng dữ liệu.
Hàng tỷ vector, mở rộng theo chiều ngang, và các chỉ số chuyên biệt cho các loại dữ liệu khác nhau - dữ liệu địa lý như vĩ độ và kinh độ có chỉ số tối ưu riêng, không phải là một cách tiếp cận chung cho tất cả.
Vì vậy, nếu bạn đang xây dựng một hệ thống tìm kiếm và truy xuất có thể mở rộng cho các đại lý, LLMs, hoặc khác, tôi khuyên bạn nên kiểm tra @milvusio.
Nó hoàn toàn mã nguồn mở (41k+ sao), và bạn có thể tự lưu trữ toàn bộ hoặc sử dụng dịch vụ đám mây của họ trực tiếp.
Liên kết đến repo trong tweet tiếp theo!
166
Hàng đầu
Thứ hạng
Yêu thích

