Vektoriindeksi vs vektoritietokanta, selvästi selitetty! Useimmat ihmiset käyttävät näitä termejä toistensa synonyymeinä. Se on virhe. Ajattele asiaa näin: Vektoriindeksi on algoritmi. Se ottaa vektorisi, järjestää ne haettavaksi rakenteeksi (kuten HNSW) ja löytää samankaltaisia kohteita nopeasti. FAISS on hyvä esimerkki. Mutta pelkkä algoritmi ei käsittele tallennusta, suodatusta tai skaalausta. Se vain etsii. Vektoritietokanta käärii indeksin kaiken muun tarvitsemasi kanssa – hajautetun tallennuksen, metatietojen suodatuksen, pysyvyyden ja samanaikaisen pääsyn. Se antaa myös joustavuutta indeksoinnissa. HNSW, IVF, DiskANN – erilaisia tekniikoita nopeuden, tarkkuuden ja muistin kompromisseihin. Milvus on hyvä esimerkki. Eli toinen on komponentti. Toinen on järjestelmä. Tämä ero tuntuu akateemiselta, kunnes pääsee asteikolla. Sitten siitä tulee kallista. Eräs autonomisen ajon yritys oppi tämän kantapään kautta. He rakensivat etsintäjärjestelmää ajovideoille – valtavassa mittakaavassa. Jokainen matka tuottaa kehyksiä; jokainen kehys muuttuu vektoriupotukseksi. Insinöörien piti kysellä skenaarioista kuten "yöaikaiset kaupunkiristeykset jalankulkijoiden kanssa" kuukausien datan aikana. FAISS oli luonnollinen lähtökohta. Nopea, kevyt, helppo säätää. Mutta datan kasvaessa jokaisen päivän upotukset muuttuivat erillisiksi indeksitiedostoiksi. Kuukausia myöhemmin: satojatuhansia erillisiä tiedostoja. ...