数据库技术基础

数据的逻辑独立性由外模式到逻辑模式的映射实现
数据库的数据独立性高
OLTP指的是联机事务处理，OLAP 指的是联机分析处理。
家长实体与学生实体联系在一起，不能单独存在，所以家长、学生属于弱实体对强实体的依赖。
数据模型的三要素包括数据结构、数据操作和数据约束。
关系模型中无论是实体还是实体间的联系均由单一的结构类型——关系来表示
数据仓库中的数据组织是基于多维模型的
数据的物理存储结构
聚类的典型应用不包括根据以往病人的特征，对新来的病人进行诊断
联系可以看做实体，与另一实体产生联系，称为聚合
属性只能依附于实体或联系用以刻画该实体或联系，而不能参与联系；
内模式也称为存储模式，是对数据物理结构和存储结构的描述，由内模式定义所有的内部记录类型、索引和文件的组织方式
关于K-Means算法和DBSCAN算法：
1、K-Means算法是基于对象之间的聚类进行聚类，需要输入聚类的个数。
2、 DBSCAN 算法基于密度进行聚类，需要确定阈值，两者的聚类结果均与输入参数关系很大。 DBSCAN 可以处理不同大小和不同形状的簇，而 K-means 算法则不适合。
派生属性：可通过别的属性获得
分类分析：为每一个记录赋予一个标记，标记分类记录
数据仓库是面向主题设计的
数据库概念结构设计是设计E-R图的
逻辑结构设计是设计关系的
离群点：在样本空间中，与其他样本点的一般行为或特征不一致的点
k-Means 算法是一种 cluster analysis 的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。
数据库的结构是三级模式结构，它包括外模式、模式和内模式，其中用户级对应外模式，概念级对应模式，物理级对应内模式。
模式又称概念模式或逻辑模式。是对数据库中全部数据的逻辑结构和特征的总体描述。
外模式又称子模式。它是某个或某几个用户所看到的数据库的数据视图，是与某一应用有关的数据的逻辑表示。
内模式又称存储模式，它是数据库中全体数据的内部表示或底层描述，是数据库最低一级的逻辑描述，它描述了数据在存储介质上的存储方式和物理结构，对应着实际存储在外存储介质上的数据库。
综上所述，可知数据库的视图与基本表之间通过建立外模式到模式之间的映像，保证数据的逻辑独立性；而基本表与存储文件之间通过建立模式到内模式之间的映像，保证数据的物理独立性
外模式对应于视图和部分基本表，模式对应于基本表，内模式对应于存储文件。
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合
分类（Classification）是一种监督学习任务，其目标是将数据样本划分到已知类别中。（划分好类再划分数据）
聚类（Clustering）是一种无监督学习任务，其目标是将数据样本划分到不同的组别或簇中，而不需要先验知识。（自动划分数据）
关联分析（Association Analysis）是一种数据挖掘技术，用于发现数据集中项之间的关联规则或者关联性强的组合。（找出数据之间的关联性）
DBA是企业人员，负责系统日常维护和故障修复
外模式：用户模式或子模式
模式：数据库全部数据的逻辑结构和特征
内模式：存储模式
OLAP服务器是数据仓库三层系统架构的中间层
查询和报表工具、数据挖掘工具都属于前端工具，数据仓库服务器是数据仓库的数据层
数据库授权是为了实现数据库的安全性
数据库的视图与基本表之间通过建立外模式到模式之间的映像，保证数据的逻辑独立性；基本表与存储文件之间通过建立外模式到内模式之间的映像，保证数据的物理独立性。
联机分析处理（OLAP）与联机事务处理（OLTP）的区别是OLAP 要求响应时间合理，OLTP 要求响应时间快
数据仓库在收集数据过程中，会遇到一些略微不一致但可以纠正的数据，纠正的过程称为数据清洗
在设计E-R图的过程中，首先应该确定相关的实体，即将所有对象进行分类：然后根据各类确定的实体，找出每一实体应具有的属性，这一过程称为聚集；再从相关实体中抽象出子类和父类，这一过程称为概括。
层次模型和网状模型统称为非关系模型，非关系模型的数据库逐渐被关系模型的数据库系统取代
数据库主要目的是为了解决多用户数据共享问题
聚簇索引是一种对磁盘上实际数据重新组织以按指定的一个或多个列的值排序。是改变数据库的内模式。
关系模型实现细节对程序员不可见
数据仓库特征：
1. 面向主题
2. 数据是集成的
3. 数据是相对稳定的
4. 数据是反应历史变化的
CAP原则：一致性（Consistency）、可用性（Availability）、分区容错性（Partition tolerance）
Armstrong公理系统的伪传递律：若X→Y，WY→Z，则XW→Z为F所蕴涵

数据库设计

数据库设计的顺序是：需求分析，概念结构设计，逻辑结构设计，物理结构设计
E-R 图向关系模式转换时，实体标识符转换为关系的码。
数据库物理设计：事务的执行频度，使用频繁的查询操作、索引设计
逻辑设计：视图设计（关系）
索引设计属于物理设计阶段
并行数据库分为：
1. 共享内存结构
2. 共享磁盘结构
3. 无共享资源结构
分布式数据库全局概念层应具有三种模式：
1. 全局概念模式
2. 分片模式
3. 分配模式
对象OID不可以被修改
c/s结构为两层结构，由客户端负责运行应用程序
B/S分为三层：客户端负责浏览器显示和简单的界面处理，Web服务器上应用程序负责业务处理并和数据库交互，相比于B/S易维护
对象的属性可以是对象
类是对象之上的抽象，对象是类的具体化，是类的实例。
对象属于复杂类型
分布式数据库中存储在不同的节点上，但是用户无需知道存储在哪一个站点上，这称为位置透明
复制透明：分布式数据库允许部分数据存在多个复本，而用户不必知道这些复本的存在
分布式数据库：共享性是指各节点数据共享，自治性是指每个节点对本地数据都能独立管理
在C/S 体系结构中，客户端执行的操作是嵌入式SQL
关系规范化是在数据库设计的逻辑设计阶段进行
逻辑设计阶段的任务是对关系模式进行进一步的规范化处理
数据库相对于文件系统具有数据独立性高的优势
关系数据库的模式分解等价的三种情况
1. 分解具有无损连接性
2. 分解要保持函数依赖
3. 分解既要无损连接性又要保持函数依赖
关系数据库中，表的行次序不能任意交换

数据库运行与管理

ACID特性：
A 原子性（Atomicity）事务是原子的，要么都做，要么都不做。
C 一致性（Consistency）事务执行的结果必须保证数据库从一个一致性状态变到另一个一致性状态。因此，当数据库只包含成功事务提交的结果时，称数据库处于一致性状态。
I隔离性（Isolation）事务相互隔离。当多个事务并发执行时，任一事务的更新操作直到其成功提交的整个过程，对其他事务都是不可见的
D 持久性（Durability）一旦事务成功提交，即使数据库崩溃，其对数据库的更新操作也将永久有效
一级封锁协议解决了丢失修改（X锁），二级封锁协议解决了脏读（S锁），三级封锁协议解决了不可重复读。
四种隔离级别
① Serializable (串行化)：可避免脏读、不可重复读、幻读的发生。
② Repeatable read (可重复读)：可避免脏读、不可重复读的发生。
③ Read committed (读已提交)：可避免脏读的发生。
④ Read uncommitted (读未提交)：最低级别，不允许丢失更新。
两段锁可以解决数据不一定性，满足两段锁的调度一定是可串行化调度
加X（排它锁，写锁）锁后不可以加其他锁，而加S锁（共享锁）后可以加其他锁
幻影现象和不可重复读的区别：（幻影属于不可重复读的一种）
1.不可重复读可以理解为修改了原数据，
2.幻影现象是删除了原数据或者增加了数据
2pl是两段锁
看到并行执行就可以直接写两段锁，不可重复读是都使用了三级封锁协议
数据库重组是侧重对数据重新组织、调整和迁移
而数据库重构是侧重于改善数据库设计，优化表结构
介质故障指的是外存故障，例如磁盘故障等，
数据库恢复技术不包括封锁机制