向量启航,引擎加持 | 2022年10月《中国数据库行业分析报告》重磅发布

为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况,从2022年4月起,墨天轮社区行业分析研究团队出品将持续每月为大家推出最新中国数据库行业分析报告持续传播数据技术知识、努力促进技术创新与行业生态发展,目前已更至第七期。

10月《中国数据库行业分析报告》已正式发布(点击即可跳转,欢迎大家下载查阅),本期报告介绍了墨天轮“中国数据库流行度排行”、国内外产品发布、评测以及国内厂商中标与投融资最新情况,由此展现当前数据库市场发展前沿动态。

向量数据库是专门为处理向量嵌入独特结构而构建的数据库系统,本期报告重点梳理了向量数据库核心能力与发展历程,并发布了【向量数据库全球产业图谱】。同时,详细解析了向量化计算如何突破传统数据库性能瓶颈,展示向量化执行引擎的技术价值,并精选展示了国内几则典型的向量数据库、向量化技术实践案例的特性与优势。

一、数据库排行榜及行业动态


本章节目录👆

  • 10月中国数据库流行度排名分析

2022年10月的墨天轮中国数据库流行度排行榜风起云涌,相比上月新增七个数据库,共245个数据库参与排名。榜单前十名变动较大:达梦数据库上市程序恢复,热度大涨,排名反超openGauss,重回第三;华为旗下两大数据库品牌名次均下降;云原生数据库PolarDB、TDSQL再创佳绩,名次均上升一位。

 

此外,本月排行榜从第十一名至第三十名竞争激烈,归属变动较大。在这一赛道中,本月也崛起了一批数据库新秀,拥有亮眼的表现。诸如云和恩墨推出的企业级关系型数据库 MogDB 、浙江智臾科技有限公司研发的分布式时序数据库 DolphinDB、北京鼎石纵横科技有限公司的MPP分析型数据库系统 StarRocks 、腾讯云推出的原生分布式并行图数据库 TGDB 、腾讯唯一的时序数据库 CTSDB 、星环科技的分布式关系型数据库 KunDB 等均有亮眼表现。

  • 国内外数据库行业发展动态

产品发布层面,2022年9月30日,openGauss 3.1.0版本正式上线,在企业级特性、高可用、高性能、高智能、高安全、工具链、可扩展性七大特性上全面增强。Oracle Database 23c 的发布计划已经明确公布,2022年Beta版已经开始测试,新版本将在2023年发布。报告中对其特性进行了整理展示。

学术层面,VLDB2022(Very Large Data Base) 于9月5日召开,作为数据库领域的三大顶级国际会议之一,代表数据库系统领域最杰出的研究和工程进展。VLDB2022会议中共有336篇国内外论文入选,其中中国贡献115篇,占比超过1/3报告对收录数及主要学术机构来源进行了整理统计。

业内调研测评层面,近日,国际知名调研机构Gartner发布了聚焦图技术的调研报告——《图数据库管理系统市场指南》在全球范围内甄选出了32家图数据库代表性供应商Galaxybase、AtlasGraph、Ultipa、StellarDB四个数据库作为优质图数据库入选。9月1日,国家工业信息安全发展研究中心依托两项标准组织开展了多轮电信行业数据库能力测评,最新一批入围“ 场景榜单” 的综合排名的前三名:中兴通讯、亚信科技、阿里云。

 

中标、投融资等商业层面,报告整理了9月国产数据库厂商中标一览表,包含项目名称、中标数据库及金额等信息。同时,整理了有关当月时序数据库厂商 Greptime( 格睿云)完成数百万美元天使轮融资、图数据库 Nebula Graph 获得数千万美元的A轮融资相关情况介绍,具体内容可通过报告了解。

二、向量数据库的概述与解析


本章节目录👆

  • 向量数据库概述

向量数据库是专门为处理向量嵌入( vector embeding ) 独特结构而构建的数据库系统。它们通过比较值并找到彼此最相似的向量来索引,以便于搜索和分析。向量数据库主要解决2个问题:高效检索、高效分析。向量数据库其实就像传统数据去处理一些关系型数据、结构化数据一样,承担的是非结构化数据的低成本存储和高性能计算两大核心能力,具体包括用于搜索和检索的向量索引、 单级过滤、数据分片、复制、混合存储以及API功能查看报告可查看对这些功能进行的具体阐述。

向量数据库的应用场景****主要包括如人脸识别、推荐系统、图片搜索、视频指纹、语音处理、自然语言处理、文件搜索等。并且随着 AI 技术的广泛应用,以及数据规模的不断增长,向量检索也逐渐成了 AI 技术链路中不可或缺的一环。从2017年Facebook 开源了 AI 相似性搜索工具Faiss(Facebook AI Similarity Search)起,向量数据库发展才刚刚5年,报告对其发展历程进行了梳理。

 

  • 国内外向量数据库技术实践与案例解析

报告展示了 Faiss、Pinecone、Weaviate、Proxima 等向量数据库、向量搜索引擎等向量化技术相关产品的架构与功能特性,便于帮助大家更好地了解向量数据库及其相关技术的核心原理与应用发展轨迹,此处仅展示其中部分内容,查阅报告可了解更多。

 

最后,报告发布了最新【全球向量数据库产业图谱】,将之分为了中国、国外向量数据库产品提供商,向量检索库、向量插件和向量字段,其中国内典型向量数据库代表有 Milvus、Vearch、ZSearch、TensorDB、Om-iBASE等

三、向量引擎加持传统数据库


本章节目录👆

  • 向量化计算技术概述

随着数据库软硬件技术的发展,经典的SQL计算引擎逐渐成为数据库系统的性能瓶颈,尤其是对于涉及到大量计算的OLAP场景。如何充分发挥底层硬件的能力,提升数据库系统的性能,成为近年来数据库领域的热门研究方向,而向量化执行就是解决上述问题的一种有效手段。向量化计算(vectorization),指将多次for循环计算变成一次计算,是一种特殊的并行计算的方式。报告对其技术框架与逻辑进行了介绍,同时,针对向量化计算能为传统数据库带来怎样的提升也进行了分析展示。

 

  • 向量化执行引擎技术特点与实现原理

2005年《MonetDB/X100: Hyper-Pipelining Query Execution》论文首次提出“向量化引擎”的概念,即为列存数据MonetDB设计一个新的执行引擎MonetDB/X100,使用向量化执行的方法,提高CPU使用率。报告中对此以及向量引擎MonetDB/X100的执行流程图和具体内容进行了展示,此处不做赘述。

向量化执行引擎自 MonerDB-X100(Vectorwise)系统开始流行,现已成为在现代硬件条件下构建高效分析查询引擎。不同于传统模式,向量化实现了从一次对一个值进行运算,到一次对一组值进行运算的跨越。通过实现批量读取和处理,大大精简了函数调用开销,减少了重复运算,提高了执行效率。报告对向量化执行引擎的技术价设计实现和原理以及执行框架进行了阐释,望帮助大家更加了解这一引擎的特征与技术价值。

 

报告的最后选取了基于Milvus的云原生向量数据库平台 Manu、京东基于 Faiss 的分布式向量搜索系统 Vearch、基于智能算法的向量数据库 Om-iBASE、爱可生基于 Milvus 的企业发行版向量数据库 TensorDB 等典型产品的功能架构、优势特点等进行了介绍。同时展示了星环科技通过向量化执行引擎构建高性能数据库、OceanBase 引入向量化技术并完全自主设计了向量化查询引擎实现查询性能提升10倍、Doris 的向量化设计与实现、TiDB 通过向量化执行使表达式性能提升10倍、MogDB 利用向量化引擎加速OLAP系统等多个技术实践,欢迎各位朋友查阅报告了解其实现原理与技术价值。此处因篇幅所限仅展示其中几张,大家可以下载报告获取更多内容。

  

本文仅对10月《中国数据库行业分析报告》的部分内容进行了摘录、整理,更多完整、详细内容大家可以下载报告全文了解,也欢迎各位数据行业同道交流、讨论、建言献策,我们一同见证、共同助力中国数据库产业的发展壮大!

报告全文下载地址:https://www.modb.pro/doc/78854

往期报告下载

查看更多精彩内容尽在墨天轮社区,围绕数据人的学习成长提供一站式的全面服务,打造集新闻资讯、在线问答、活动直播、在线课程、文档阅览、资源下载、知识分享及在线运维为一体的统一平台,持续促进数据领域的知识传播和技术创新。

关注官方公众号: 墨天轮、 墨天轮平台、墨天轮成长营、数据库国产化 、数据库资讯

posted @ 2022-10-21 12:14  墨天轮  阅读(856)  评论(0编辑  收藏  举报