产学研合作生态硬核来袭,共探数据库技术发展与应用

腾讯云数据库一直致力于推动数据库基础研究创新、数据库产学研合作生态建设,助力国产数据库学术人才培养和技术创新生态建设发展。

为让更多数据库从业者了解数据库领域的最新研究成果,熟悉更多行业前沿发展趋势,更好地探索前沿技术创新,8月16日下午,腾讯云数据库邀请到华南师范大学二级教授 汤庸、长江学者 毛睿、中国人民大学教授 卢卫和腾讯云数据库专家工程师 智雅楠带来主题为“数据库技术的发展与应用”的前沿学术分享直播。本期为大家带来各位专家的分享精华,都是硬核干货!

一、数据管理与数据应用

汤庸,学者网创始人、华南师范大学二级教授

file

数据库的目的在于数据管理与应用。数据管理上,对于结构化、可形式化的数据,采用数据库技术进行管理;对于半结构化、非结构化的数据,运用大数据技术进行管理。数据应用上可分为数据库应用、数据智能。以查询为例,数据库应用会返回统一的结果,相对比较准确;数据智能则类似于数据检索,会返回较多相关的结果,不一定准确。在数据管理与应用的过程中,则需要用到数据库技术与数据科学。

数据管理方面,汤庸教授以TempDB时态数据管理软件为例,分享时态数据库的相关内容。TempDB在逻辑上使用双时态数据模型,使用ATSQL2语言,支持电子政务、电子商务、决策支持等信息处理系统中的时态应用;同时,TempDB在技术上基于关系数据库管理系统MySQL平台、采用JAVA语言进行底层开发,具有较强的可移植性以及部署方便。

在具体概念上,时间数据与时态信息是两个不同的概念,时间数据是指“时间作为一种数据类型”,包括时间点、区间、跨度等,可用于Allen时间关系演算、时间粒度转化;时态信息是指“时间做为信息维度”, 在陈述信息的同时加上时间属性。时态数据库的相关概念还包括:三种时间数据、四种时态数据库以及两个特殊变元

在理论层面上,时态数据库理论是对关系型数据库理论的拓展,又可分为历史关系数据模型HRDM、双时态概念模型BCDM两种理论。在具体实现上,时态数据库也需要支持DDL、DML、查询语言,以及需要支持时态约束。

TempDB是基于时态查询语言ATSQL2开发的时态信息处理前端构件,本质上是中间件。TempDB可作为独立平台来使用,也可以通过集成类库包,将时态信息处理需求方便地集成到应用中,从而提高软件的生产率和可重用性。汤庸教授从语言规范、体系架构、实例数据库、运行界面(交互方式)、应用模型等方面详细介绍了TempDB的有关情况。

结合最新的行业研究趋势,汤庸教授还对时序数据库和时态数据库进行了区分,并分享了目前时态数据管理与应用的难点。

数据应用方面,汤庸教授以TSCHOLAT大数据智能应用为例进行分享。

当前,很多学者在进行科研教学时都需要进行社会化协作,这种协作往往需要基于内容(个人学术背景、学术信息、教学资源等),要求可信、实时、有效

基于上述痛点,TSCHOLAT即学者网应运而生。学者网是主要面向学者的社交网络、科研教学协作平台,目标是为学者们提供自主可控空间以及可信交流平台。汤庸教授从学术空间、学术圈感知与可信交流、学术自媒体、群组协作平台、教学协作空间、学术门户、大数据智能分析等方面全面介绍了学者网的功能。

相对常见社交网络而言,学者网有更丰富、更聚焦的数据内涵,是独特的科研教育大数据生产者,主要是以学者为中心的图数据,核心科学问题是学者关联分析。根据其数据特点,学者网在时态数据应用上进行开发,开展学者影响力分析、学者时态关系与学者时态知识图谱研究等方面的工作。

二、大数据泛构:应对多样性挑战的通用数据处理模式

毛睿,长江学者,深圳大学特聘教授,博士、博导

file

在毛睿老师看来,科学在于通用。基于这种理念,他提出了大数据泛构技术——一种可应对多样性挑战的通用模式,并建立了基于度量空间的通用大数据处理理论框架

过去包括Hadoop、Spark等,更多是擅长于某种特定场景,功能单一。数据库的成功为大数据的发展带来了启发,即要走通用发展路线。目前,通用的大数据管理分析系统已经成为行业痛点。

当前大数据处理主要围绕volume和velocity这两个挑战,对于variety挑战的研究相对较少。通用的数据处理技术因其广泛的适用性和相对低的平均开发维护成本,一直受到商业数据库管理系统的青睐。大数据泛构(big data genhierarchy)把数据抽象成度量空间中的点,仅利用数据间距离的三角不等性进行数据的管理和挖掘等工作,具有高度的通用性,有望成为下一代通用数据处理系统的重要组件

file

专用和通用系统往往交替发展。一个技术诞生之初更多是专用系统,随着场景、技术的积累更加丰富,将逐渐走向通用。要把一个技术做成通用的基本技术手段,可从多样化着手:

  • 将variety数据抽象成统一的数据类型;
  • 将variety距离抽象成统一的距离函数;
  • 在以上基础上,针对统一的类型、距离的特点进行大数据管理分析。

同时结合度量空间理论,即可获得一个覆盖面更广、更通用的数据处理模式。

三、分布式数据库的多级一致性及构建技术

卢卫,中国人民大学教授、博士生导师

file

金融行业尤为注重“准”,即数据的一致性,数据不能出错。但不同业务场景对一致性或者“准”的理解、要求并非都一样。这将会对数据库一致性技术创新带来复杂的挑战。卢卫老师以三类场景为例:

在证券交易中,其一致性包含两个层面:即交易必须正确、交易必须严格有序,卖出和买入股票必须实时可见,这是要求最高的。

第二类场景中,比如转账,首先要求保证准确,其次交易并非严格有序,即我转给别人的金额,别人不一定能实时可见(延迟到账)。这对一致性的性能要求有所弱化。

第三类场景中,常见的比如12306,首先当然交易必须准确,一张票不能卖两次;然而基于数据库关系模型,多个用户可以同时访问一个数据。这就可能会出现12306中显示有票但无法购买的情况。

由此可见,数据库一致性理论并不能详细的描述每一种用户对于一致性的要求。

过去集中式时代,系统架构依赖于统一的调度,因此可串行化模型也能达到严格可串行化的准确效果。然而,当来到去中心化的分布式数据库时代,如果仍然依赖集中式调度,性能和可扩展性都无法满足应用的需求。过去集中式的IBM小型机、EMC存储、Oracle数据库(IOE)在处理小规模的数据场景时是合适的。但是这种架构模式的问题在于,当数据量比较大或者业务场景比较密集时,集中式就会成为整个系统的负担。

严格串行化虽然能保证数据的准确性,但也带来了较多的问题。以Google Spanner为例,Google Spanner支持严格可串行化,但是严格可串行化要求有一个原子钟,或者有一个中心授时器(本质上是因为协调器和协调器之间缺少一个协调),因而导致性能较低,难以被广泛应用于实际业务场景中。

针对以上分布式一致性的困境,中国人民大学-腾讯协同创新实验室研究提出“多级一致性”的事务处理理念,并应用于腾讯分布式数据库TDSQL产品中。该技术包含严格可串行化、顺序可串行化、可串行化三大隔离级别,可针对不同应用场景要求,极大地平衡性能与一致性要求,满足金融及各类企业场景的分布式事务处理需求

在这一套去中心化的事务处理机制、多种隔离级别的一致性统一建模技术基础上,中国人民大学-腾讯协同创新实验室同时研究提出双向动态时间戳调整算法,使得TDSQL可在一套系统内实现高性能多级一致性支持。

分布式环境下提出多级一致性模型,确保TDSQL无任何数据异常,且具备高性能的可扩展性,解决了分布式数据库在金融级场景应用的最核心技术挑战,使得国产分布式数据库实现在金融核心系统场景的可用。基于此,TDSQL是当前国内唯一进入国有大型银行核心系统正式投产的国产分布式数据库。

四、云环境下如何构建一个弹性伸缩、高性价比的分布式数据库存储引擎

智雅楠,腾讯云数据库专家工程师

file

分布式数据库TDSQL的目标是云环境下如何构建一个弹性伸缩、高性价比的分布式数据库存储引擎,即把数据库打造成一种服务,用户随取随用,把简单留给用户,把复杂留给自己

一方面,用户可以像使用单机数据库一样使用分布式数据库,同时业务体验又能具备无限扩展的计算能力、无限扩展的存储能力、伸缩过程用户无感知、100%兼容MySQL、高可靠高可用、支持存储过程trigger、不用需指定shared key等特性。另一方面,还需要做到高性价比,用户需要多少资源就用多少资源。

为了实现这个目标,TDSQL选择了扩展性不受限制的云原生Share Nothing架构。在构建过程中,对多维度的数据粒度划分、数据平滑迁移技术、集群的负载均衡三方面进行技术创新突破,包括实现智能数据地理感知、代价估算数据分布策略、基于AI的无服务弹性可伸缩技术等,可感知系统故障规律,建立高精度的数据库资源容量预测模型,进行智能资源调度、敏捷弹性伸缩、数据布局优化、关键参数自动调优、分布式共识协议同步与通信优化,形成高可用、高效率的弹性计算能力,做到低成本支持大规模突发性业务。

作为国内领先的数据库厂商,腾讯云数据库一直致力于推动数据库基础研究创新、数据库产学研合作生态建设,通过校企联合实验室共建,面向青年学者的CCF-腾讯犀牛鸟基金与腾讯犀牛鸟科研专项等,与高校、科研机构构建起“产学研”一体的长期合作,将技术研究成果转换为应用落地,校企联合持续输出前沿技术创新与示范性应用。

file
腾讯云数据库负责人潘安群先生与腾讯高校合作总监 刘婷婷女士为现场分享嘉宾颁发荣誉证书

腾讯云数据库诞生自腾讯内部业务金融级场景,历经海量场景十余年研发打磨,具备金融级分布式、云原生、实时分析、企业级通用等能力,目前已服务金融、政务、工业制造等行业超过50万家客户。腾讯企业级分布式数据库TDSQL是国内首家应用于互联网分布式银行核心系统、银行传统核心系统,也是首家帮助国内银行核心系统从IBM大机下移至国产分布式架构的国产分布式数据库。目前,腾讯TDSQL已经帮助20余家金融机构完成核心替换,国内TOP 10银行机构服务占比超过6家。TDSQL也很好了支持了第七次全国人口普查,以及腾讯会议、健康码等国计民生的数字化应用。

未来,腾讯云数据库将继续加大对数据库产学研合作生态的投入,通过与腾讯高校合作、计算机与数据库领域学术组织等内外部合作伙伴合作,持续挖掘更有效的产学合作模式,加强产学交流互动,助力国产数据库人才培养和技术创新生态建设。

posted @ 2022-08-24 12:00  腾讯云数据库  阅读(329)  评论(0编辑  收藏  举报