向量数据库

一:向量数据库原理

https://blog.csdn.net/zevjay/article/details/138022283

Faiss的核心在于其高效的索引结构和搜索算法

(一)索引结构

常见的索引结构包括:

Flat Index:最简单的索引结构,将所有向量存储在一起,适用于小规模数据集。搜索时需遍历整个数据集,计算查询向量与每个数据向量的相似度。

IVF (Inverted File Index) :基于聚类的思想,先将数据集划分为多个子集(聚类中心),再对每个子集内部使用其他索引结构(如Flat或Hierarchical Clustering)。搜索时先找到最相关的几个子集(近似搜索),再在子集中精确搜索。

HNSW (Hierarchical Navigable Small World) :基于图的近似最近邻搜索算法(K-近邻算法),构建多层图结构,每一层节点代表一个向量,节点间边代表相似度。搜索时通过层次跳跃快速缩小搜索范围,最终找到近似最近邻。https://www.cnblogs.com/ssyfj/p/13053055.html

https://nicksxs.me/2024/06/23/%E4%BB%8B%E7%BB%8D%E4%B8%80%E4%B8%8BHNSW%E7%AE%97%E6%B3%95/

PCA (Principal Component Analysis) / Product Quantization:通过降维或量化技术压缩向量,减少存储空间和计算复杂度。https://zhuanlan.zhihu.com/p/534004381

意思是说将原始向量分解成若干个低维向量的笛卡尔积,并对分解得到的低维向量空间做量化,这样原始向量便能通过低维向量的量化code表示。
将N条D维向量分解,每个D维向量X分解成M组D/M维子向量Y,然后对每组子向量Y进行K-means聚类,这样每组子向量都可以有K个映射结果(每个结果可以用log2K位表示),最后原始向量就可以被压缩从D*32--->M*log2K
其中参数K=256和m=8被认为最佳参数,主要参数是m,如下
pq_m:子向量个数,影响压缩率与精度。一般设置为8或16,具体根据数据特性调整。
以文章例子来看:
  • 5w条1024维的数据,每条可以转为8*128(8组128维的子向量)---(每一维占一个int 32位)
  • 然后对每一组子向量(5w条128维)进行k-means聚类,这里设置聚成256类(256可以用8位表示)
  • 所以区别每个类只需要8bit,那么原始的一条数据1024*32位变成了8*8位

(二)搜索算法

Exact Search:精确搜索,计算查询向量与所有数据向量的相似度,返回最相似的结果。适用于数据量较小或对精度要求极高的场景。

Approximate Search:近似搜索,牺牲一定精度换取搜索速度,常用于大规模数据集。如IVF、HNSW等索引结构均支持近似搜索。

(三)索引类型选择和参数调优

根据数据集大小、查询速度要求、内存限制等因素,选择合适的索引类型至关重要。
小规模数据集(< 10^5向量):使用IndexFlatL2或IndexFlatIP进行精确搜索即可,简单且高效。
Flat 的意思是,入库的向量不会经过任何形式的预处理(例如归一化)或量化,它们以原始的、完整的形式存储。
并且在进行相似度检索时,会完整地扫库一次(俗称暴力搜索),所以它的计算结果一定是全局最优的

IndexFlatL2 是根据L2距离来衡量向量之间的相似度,L2距离越短,说明两个向量之间越相似
IndexFlatIP 则是根据内积(Inner Product)来衡量向量之间的相似度,内积越大,说明两个向量之间越相似
中等规模数据集(10^5 - 10^8向量):考虑使用IndexIVFFlat或IndexIVFPQ。前者基于聚类的近似搜索,后者结合了Product Quantization进一步压缩向量。根据内存和精度需求调整nlist(聚类中心数)和nprobe(搜索时访问的聚类中心数)参数
nlist:增大nlist可提高搜索速度,但可能导致精度下降。一般通过交叉验证确定最优值。
nprobe:增大nprobe可提高精度,但会增加搜索时间。在实际应用中,可设置为可配置项,根据实时性能需求动态调整。
大规模数据集(> 10^8向量):推荐使用IndexHNSW或IndexIVFPQ。前者基于图的近似搜索,后者结合了量化压缩。适当调整M(HNSW层数,影响搜索)efConstruction(构建图时扩展的邻居数量,影响构建)参数。
M:控制图的层数,影响搜索速度与精度。一般情况下,较大的M可提高精度,但会增加内存占用。可通过实验确定最优值。
efConstruction:构建图时扩展的邻居数量,影响索引构建时间和精度。通常设置为较大值(如200)以构建高质量图。

二:使用案例

https://soulteary.com/2022/09/03/vector-database-guide-talk-about-the-similarity-retrieval-technology-from-metaverse-big-company-faiss.html
https://soulteary.com/2022/09/10/the-dimensionality-reduction-of-traditional-text-retrieval-methods-using-faiss-to-achieve-vector-semantic-retrieval.html
 
posted @ 2024-07-17 20:33  山上有风景  阅读(74)  评论(0编辑  收藏  举报