[VectorDatabase/AIGC] 向量数据库:在人工智能、大语言模型的地位、应用

企业落地大模型的“数据”局限之问?

众所周知,数据在 MaaS 时代很重要,市场的火热映射到具体的企业行为上,表现为大批量垂直模型的推出、数据库企业融资数量增加、数据库使用量陡然增长等。

但在企业落地的过程中,大模型所面临的难题依旧没有解决。

企业落地大模型,因“数据局限”的三大难题

经过近半年的观察,数据局限对企业做大模型带来的影响,可归结为以下三点:

对数据的管理和运维

首先,是对数据的管理和运维。如上所述,随着文本、图片、视频等多模态的、非结构化数据的使用需求增加,许多企业所产出的非结构化数据量级可高达 80%,如果选择以预训练的方式将数据“喂”给模型,与之而来的则是难以承载的高成本。

身为明星创业公司的百川智能,在模型训练和调试时就曾遇见过类似问题。

未使用向量数据库之前,百川智能一直使用的是开源方案,比如以向量索引为内核,相当于在训练时给模型准备一个 library 级别或算法级别的知识库,这些知识库使用简单,采用分布式系统的方式,具有扩展性。
但其缺点也很直观,随着数量增长到一定规模时,这种分布式存储的方式会很快遇到瓶颈。

不仅如此,由于市面上缺少成熟的管理工具数据格式该怎么组织、数据的更新频率如何安排、新旧数据的更迭等等,百川智能都需要额外交给工程师去做,大大增加了人员成本。

短暂记忆能力虽解决了,但【一本正经的胡说八道】的问题,仍未解决

第二点,虽然大模型支持的 token 数量在持续增加,具备了“短暂记忆”的能力,但“一本正经地胡说八道”的问题仍无法解决,当中不乏有敏感内容的出现,稍不注意,便可能带来严重的影响。

因此,支撑模型训练的数据不仅要数量多,质量也必须足够高。

比如大模型和教育行业的结合,虽然模型可以完成一定的推理和解题,但进入实际应用中,好未来就发现了,大模型在面对数学问题时,其表现仍然不够好。

要想解决这个问题,必须基于庞大的高质量的数据库,像教程题库数学错题集等,在此之上尝试启发式内容生成

如何保障企业数据的安全性?如何将私有化业务数据跟大模型结合?

第三,如何保障企业数据的安全性,数据在空间和时间上会有很大的限制。

一方面,企业很难把自己具有核心竞争力的数据放到大模型中去训练;有行业人士就曾向 AI 科技评论指出,许多应用型公司并不愿意将自身微调的模型贡献到公有版本里、与其他人分享,而是倾向于训练自己的大模型,而后进行本地私有化部署。这个过程中,企业要解决的主要难点是,如何将私有化业务数据跟大模型结合

销售易是很早就在智能 CRM 业务中引入了大模型,例如提供相似客户推荐、做问答机器人等服务。

但客户在使用过程时却发现,大模型所推荐的客户类型经常会出现匹配度不高的情况,向它提问与企业相关的的系统功能问题时,大模型也回答不出来。

另一方面,企业的业务数据变化速度快,且实时性强,因此私有化部署后的大模型、在数据层上也很难做到秒、天级别的更新。

解决方法

当上述诸多问题横亘于企业和大模型落地之间,学术界和工业界也提出了两种解决方案。

Fine-tuning/学习更多的知识

一是采用 Fine-tuning 的方式迭代演进,让大模型学到更多的知识;

二是通过 Vector search 的方法,把最新的私域知识存在向量数据库中,需要时在向量数据库中做基于语义的向量检索,这两种方法都可以为大模型提供更加精准的答案。

但是从成本方面来看,行业人士指出,向量数据库的成本仅为 Fine-tuning 的千分之一。

向量数据库通过把数据向量化,进行存储和查询可以有效解决大模型预训练成本高、没有“长期记忆”、幻觉知识更新不及时等问题。

因此,凭借其优势,向量数据库也被视为了加速大模型落地行业场景关键突破口

向量数据库

  • 语义搜索检索增强生成(RAG)正在彻底改变我们的在线交互方式。
  • 实现这些突破性进展的支柱就是向量数据库
  • 选择正确的向量数据库能是一项艰巨的任务。

本文为你提供四个重要的开源向量数据库之间的全面比较,希望你能够选择出最符合自己特定需求的数据库。

什么是向量数据库?

  • 向量数据库是一种将文本数据、图像数据等存储为高维向量的数据库,高维向量特征属性数学表示

  • 每个向量都有一定数量的维度,根据数据的复杂性和粒度,可以从数十到数千不等。

  • 向量通常是通过对原始数据(如文本、图像、音频、视频等)应用某种转换嵌入函数来生成的。

嵌入函数可以基于各种方法,如机器学习模型、词嵌入和特征提取算法。

  • 向量数据库的主要优点:
  • 它允许基于数据的向量距离或相似性进行快速和准确的相似性搜索和检索。
  • 这意味着不用使用基于精确匹配预定义标准查询数据库的传统方法,而是可以使用向量数据库根据语义上下文含义查找最相似或最相关的数据。

为什么需要向量数据库?

  • 可以通过将向量嵌入到向量数据库中来索引它们,通过搜索周围向量来定位相关的信息。

  • 在传统领域,开发人员可以使用不同类型的机器学习模型来自动从扫描文档和照片等数据中提取元数据。

然后用向量索引信息,通过关键字和向量的混合搜索改善搜索结果,还可以将语义理解与相关性排名结合起来。

  • 最新的生成式人工智能(GenAI)的创新带来了新型模型,如ChatGPT,它可以生成文本并处理复杂的人机交互。

例如,一些模型允许用户描述风景,然后创建与描述相匹配的图片。但是生成模型在提供不正确的信息时容易产生幻觉。
向量数据库正好可以帮助解决这个问题。
通过向量数据库补充生成人工智能模型和外部知识库,以确保它们提供可靠的信息。

X 参考文献

向量数据库产品

榜单

Milvus * [开源]

  • 主要特点
  • 毫秒级搜索万亿级向量数据集
  • 简单管理非结构化数据
  • 可靠的向量数据库,始终可用
  • 高度可扩展和适应性强
  • 混合搜索
  • 统一的Lambda结构
  • 受到社区支持,得到行业认可
  • 开源情况:开源

GitHub stars:

  • 31.6K | 2024.12.29
  • 21.1k | 2024.5.14
    Github Fork :
  • 3K | 2024.12.29
  • 解决问题:
  • Milvus是一个开源的向量数据库,旨在促进向量嵌入、高效相似搜索和AI应用。它于2019年10月以开源Apache 2.0许可证发布,目前是LF AI & Data Foundation赞助的毕业项目。
  • 该工具简化了非结构化数据的搜索,并提供了与部署环境无关的统一用户体验。为了提高弹性和适应性,Milvus 2.0重构版本中的所有组件都是无状态的。
  • Milvus的应用案例包括图像搜索、聊天机器人和化学结构搜索。
  • Milvus URL
  • 教程资源

Chroma [开源]

  • Chroma URL
  • 开源情况

GitHub stars:

  • 7k | 2024.5.14
  • 14.5K | 2024.9.12
  • 16.1K | 2024.12.29
    Github fork:
  • 1.4K | 2024.12.29
  • 解决问题:
  • Chroma DB是一个开源的、AI本地的嵌入式向量数据库,旨在简化通过使知识、事实和技能对大型语言模型(LLM)规模上的机器学习模型可插拔,从而创建由自然语言处理驱动的LLM应用程序的过程,同时避免幻觉。
  • 许多工程师都希望能够拥有一个“为数据设计的ChatGPT”,Chroma通过基于嵌入的文档检索提供了这种链接。它还提供了一站式服务,团队需要存储、嵌入和查询数据的一切都在其中,包括强大的过滤功能,还有如智能分组和查询相关性等更多功能即将推出。
  • Chroma的关键特性包括:
  • 功能丰富:支持查询、过滤、密度估计等多种功能
  • 即将添加的语言链(LangChain)、LlamaIndex等更多功能
  • 相同的API可以在Python笔记本中运行,也可以扩展到集群,用于开发、测试和生产

Faiss *

  • URL

Github stars:

  • 32.1K | 2024.12.29
    Github fork:
  • 3.7K | 2024.12.29

Weaviate

  • Weaviate URL
  • 开源情况

Github Stars :

  • 6.7K | 2024.9.12
  • 10.7K | 2024.9.12
  • 解决问题:
  • Weaviate是一个云原生的、开源的向量数据库,具有弹性、可扩展性和快速性。该工具可以使用先进的机器学习模型和算法将文本、照片和其他数据转换为可搜索的向量数据库。
  • 可以对数百万项进行10-NN邻居搜索,在个位数毫秒内完成。工程师可以使用它来在导入过程中向量化他们的数据,或提交自己的向量,最终创建问答提取、总结和分类系统。
  • Weaviate模块支持使用如OpenAI、Cohere或HuggingFace等知名服务和模型中心,以及使用本地和定制模型。Weaviate在设计时考虑了规模、复制和安全。
  • Weaviate的关键特性包括:
  • 内置AI驱动的搜索、问答、将LLM与您的数据结合和自动分类模块
  • 完整的CRUD(创建、读取、更新、删除)功能
  • 云原生、分布式,能够随着工作负载的增长而扩展,并在Kubernetes上运行良好
  • 能够无缝地将机器学习模型转移到MLOps

Deep Lake

  • URL
  • 开源情况:开源

GitHub stars:

  • 6.4k | 2024.5.14
  • 8K | 2024.9.12
  • 解决问题:
  • Deep Lake是一个由专有存储格式驱动的AI数据库,专为深度学习和基于大型语言模型(LLM)的应用程序设计,这些应用程序利用自然语言处理。它通过向量存储和一系列功能帮助工程师更快地部署企业级的LLM产品。
  • Deep Lake可以处理任何大小的数据,是无服务器的,允许您在单一位置存储所有数据。
  • 它还提供工具集成,以帮助简化深度学习操作。例如,使用Deep Lake和Weights & Biases,可以跟踪实验并实现模型的完全可重复性。集成将数据集相关信息(URL、提交哈希、视图ID)自动传递到W&B运行中。
  • Deep Lake的关键特性包括:
  • 存储所有类型的数据(嵌入、音频、文本、视频、图像、PDF等)。
  • 查询和向量搜索功能。
  • 在训练模型时实时流式传输数据。
  • 数据版本控制和工作负载线程。
  • 与工具如LangChain、LlamaIndex、Weights & Biases等的集成。

Pgvector

ScaNN

Vald

Vespa

Qdrant

Elasticsearch

Pinecone [闭源]

  • Pinecone
  • www.pinecone.io/

  • 是否开源:没有开源

  • 解决问题:

  • Pinecone是一个托管的、云原生的向量数据库,具有简单的API,无需任何基础设施要求。用户可以快速启动、操作和扩展他们的AI解决方案,无需进行任何基础设施维护、服务监控或算法调试。
  • 该解决方案能够快速处理数据,并允许用户使用元数据过滤器和稀疏-密集索引支持来实现高质量的相关性,确保在各种搜索需求下都能快速准确地获得结果。
  • Pinecone的关键特性包括:
  • 重复检测:帮助用户识别和删除重复的数据
  • 排名跟踪:跟踪数据在搜索结果中的排名,有助于优化和调整搜索策略
  • 数据搜索:快速搜索数据库中的数据,支持复杂的搜索条件
  • 分类:对数据进行分类,便于管理和检索
  • 去重:自动识别和删除重复数据,保持数据集的纯净和一致性

X 参考文献

一文看懂开源许可证:大语言模型和向量数据库入门指南
https://www.bilibili.com/read/cv36172019/?jump_opus=1

大模型时代下向量数据库有哪些优势?
https://www.zhihu.com/question/631760204/answer/3496497958

大模型落地,向量数据库能做什么?2023-11-16
https://baijiahao.baidu.com/s?id=1782713046186265293

posted @ 2024-09-12 01:11  千千寰宇  阅读(82)  评论(0编辑  收藏  举报