老司机带你聊聊向量数据库

引言

随着人工智能、大数据技术的发展，传统数据库已经难以满足某些复杂应用场景的需求，尤其是在图像、语音、文本等非结构化数据的处理上，传统的精确匹配方式已经显得力不从心。最近几年，向量数据库应运而生，成为了热门话题。向量数据库的核心优势在于它可以通过将数据转化为高维向量，在相似性计算中找到更为接近的结果，而不再局限于传统数据库中对精确匹配的依赖。如今，越来越多的应用场景，特别是图片搜索、语音识别正在依靠向量数据库来解决问题。众多向量数据库产品也如雨后春笋不断冒出，Faiss 、Milvus、Pinecone、Weaviate、Vespa等等。

本文以轻松对话的方式，带你深入了解向量数据库的原理与应用，并与传统数据库进行对比，探索其背后的技术魅力。

有趣的对话

萌新：哥，我听说过传统数据库，但是最近老听人提什么“向量数据库”。啥意思啊？我这数据库小白完全懵逼了……😂

知识人：哈哈，别慌，我来给你大白话解释。先说传统数据库吧，你应该听过吧？

萌新：嗯，知道一点，就是那种存数据、查数据的，不是么？

知识人：对！传统数据库的搜索，主要是基于一些索引和排序算法，比如B Tree、LSM Tree、Hash，或者你可能听过的BM25、TF-IDF这些。简单说，就是它靠文本的精确匹配来查找数据。😬

萌新：哦，就是我输入啥关键词，它就去数据库里找一模一样的内容，对吧？

知识人：没错！比如你想搜索“省儿保”这个关键词，结果数据库里可能根本没有存这个词。它存的其实是“浙江大学医学院附属儿童医院”。因为这两个词不一样，传统数据库就直接懵了，找不到东西。😂

萌新：哈哈，那也太笨了吧！明明说的是同一个地方，居然找不到？

知识人：对！传统数据库就是这样，擅长处理精确的关键字匹配，但对于这种有语义关联的东西，确实力不从心。所以就有了向量数据库！✌️

萌新：哦？这向量数据库是怎么解决这个问题的？

知识人：向量数据库牛就牛在，它不看表面的字，而是通过数学方法，把“省儿保” 和“浙江大学医学院附属儿童医院”这种语义相关的东西给“理解”了。它把每个词、每段文字转化成一组数字，也就是所谓的“高维向量”。然后在这些数字之间比相似度。这样，即使你输入的词不完全一样，它也能找到相关的结果。✌️✌️

萌新：哇，那它是怎么做到的？是猜出来的么？

知识人：可以这么理解。它通过大量的数据训练，找到词语、句子或者图片的相似特征。就像你看一张图，如果颜色、形状相似，你会觉得它们很像，对吧？向量数据库也是类似的原理，把数据分解成很多维度的特征，然后去比对。😬

萌新：原来如此！那它是不是就只适合这些“模糊搜索”？

知识人：对的！你还记得几年前淘宝、百度推出的“以图搜图”功能吗？那种场景，用传统数据库几乎搞不定，但向量数据库可以把图片拆成各种维度的数值，然后在数据库里找出和这些维度最相似的内容。说白了，它更擅长处理图片、语音这种非结构化数据的搜索。😬

萌新：听着挺高大上啊！不过我有点疑问，向量数据库和传统的到底差别在哪儿？

知识人：这就要总结一下了。传统数据库靠的是精确查找，擅长找一模一样的数据，而且它的索引和算法都很成熟。向量数据库呢，是近似查找，它不是找一模一样的，而是找“差不多”的东西。理论上，只要我们把对象的特征维度搞得足够细，它也能做到非常精确的查找。😂

萌新：那岂不是说，向量数据库更聪明，可以解决所有问题？

知识人：理想很丰满，现实嘛，向量数据库虽然强大，但它处理的维度越多，系统负载也越大，计算复杂度会大大增加。所以它一般只是用来做近似查询，不可能替代所有的数据库应用。

萌新：明白了！它就是为了做那些传统数据库做不到的近似查找，尤其是那些图片啊、语音啊，或者有语义关联的东西。

知识人：没错！向量数据库就像给了数据库一双“理解”数据的眼睛，它能找到相似的东西，而不仅仅是死板的匹配关键字。现在，你对向量数据库是不是清楚多了？😂

萌新：哈哈，豁然开朗！感觉这东西挺有意思的，以后有机会得好好研究研究！

知识人：那就对了，欢迎加入数据库的世界！✌️

参考文章

https://www.nvidia.cn/glossary/vector-database/
https://cloud.tencent.com/developer/article/2312534
https://aws.amazon.com/cn/what-is/vector-databases/
https://aws.amazon.com/cn/campaigns/what-is-a-vector-database/