七、数据库技术的发展及新技术
一、对象数据库
二、数据仓库及数据挖掘
数据仓库是一个面向主题的、集成的、非易失的,且随时间变化的集合
数据分配(对分片结果操作),将分片产生的片段分配存储在各个场地上。解决数据分配的方法:
① 集中式:所有数据片段安排在一个场地上
② 分割式:所有全局数据有且只有一份,分割成若干被分配在特定场地上的片段
③ 全复制式:全局数据有多个副本,每个场地上有一个完整的数据副本
④ 混合式:介于分割与全复制之间
分布式数据库目标(12个):
① 最基本特征:本地自治、非集中式管理、高可用性
② 分布透明性(独立性):
1) 分片透明性:用户无需考虑数据分片,最高层次的透明性
2) 位置透明性:用户只需考虑数据分片情况,无需考虑数据分片位置
3) 局部映像透明性:用户既要了解全局数据的分片情况,还有了解个片段的副本复制情况及位置分配情况
③ 复杂性:分布式查询、事务管理
④ 其他:硬件独立性、操作系统独立性、网络独立性、数据库系统独立性
分布式数据库系统的恢复控制采用的最典型策略是基于两阶段的提交协议
两阶段的提交协议将场地的事务管理器分为协调者和参与者,通过协调者在第一阶段询问所有参与者事务是否可以提交,参与者做出应答,在第二阶段协调者根据参与者的回答决定是否提交
并行数据库系统:通过并行实现各种数据操作,如数据载入、索引建立、数据查询等,可以提高系统的性能
优势:增强的可用性:当存储某个关系的产地系统崩溃时,可继续使用存储在别的场地的副本
实现并行DBMS的三种硬件结构:
① 共享内存系统(Shared Memory):多个人CPU通过连接网络进行通信,并能访问公共的主存。随着CPU增加,造成内存冲突
② 共享磁盘系统(Shared Disk):每个CPU拥有自己的私有内存,并通过连接网络,直接访问所有磁盘,通过网络实现CPU之间的数据交换,增加了通信代价
③ 无资源共享系统(Shared Nothing):每个CPU拥有自己的内存和磁盘空间,并无公共区域,CPU之间所有通信通过连接网络来实现。存在通信代价,非本地磁盘的访问代价高
④ 层次结构(Hierachical):前三种体系的结合。分为两层,顶层时无共享结构,底层是共享内存或共享磁盘结构。集成了以上三种结构的优缺点
一维数据划分:将大数据集水平划分到多个磁盘上,可以通过并行读写有效利用多磁盘的I/O带宽:
① 轮转法:如果系统有n个CPU,将第i条记录划分到第i mod n 处理器的方法称为轮转划分方法
② 散列法:使用特定的哈希函数,作用于选定的属性,将记录划分到不同的处理机
③ 范围划分法:首先对记录进行排序,然后按照排序码将其划分成n个区域,使每个区域中近似含有相同数目的记录,处于第i个区域的记录分布于处理机i
优缺点:
① 轮转法可有效应用于需要访问整个关系的查询处理,当需要访问部分记录时,散列法和范围法更优
② 范围法可能会导致数据偏斜,也就是不同片含有的记录数目特别大。数据偏斜会造成存有大片数据分片的处理机性能瓶颈问题
③ 散列法优点是:即使数据随时间增加或减少,也能保存均匀分布
元数据:关于数据的数据,或叫描述数据的数据。用以构造、维持、管理和使用数据仓库,在数据仓库中尤为重要
元数据描述了数据的结构、内容、链和索引等内容
在数据仓库中,元数据分成技术型元数据和业务型元数据
OLAP(Online Analytical Processing)联机分析处理,实现方法有三种:
① 基于多维数据库的OlAP(MOLAP)
② 基于关系数据库的OLAP(ROLAP)
③ 混合型的OLAP(HOLAP)
快照(Snapshot)是指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品,适合更新变化量小的数据。
聚类算法:用于对集中的数据进行分组,使得每组内地数据尽量相似而不同组间数据尽可能不同
聚类算法与分类算法的区别:聚类是未知结果有多少类,既可以聚成10类,也可能聚成100类。分类算法是已知
一共有多少类
关联规则:用于表示数据内隐含的关联性。例如:购买尿布的人往往会购买啤酒
支持度(pupport):{X, Y}同时出现的概率。例如{尿布,啤酒}同时出现的概率
注意:支持度没有先后顺序之分。{尿布,啤酒}的支持度等于{啤酒,尿布}的支持度
置信度(confidence):购买X的人,同时购买Y的概率。例如:购买尿布的人,同时购买啤酒的概率
三、XML数据库
四、云计算数据库
五、空间数据库