数据库复习笔记--基础部分
1.绪论
1.1 数据库系统概述
几个概念
- 数据(Data):数据是数据库中存储的基本对象。
- 数据库(DB):数据库是长期存储在计算机内、有组织、可共享的大量数据的集合。
- 数据库管理系统(DBMS):是位于用户和操作系统之间的数据管理软件,主要功能数据定义、数据组织存储管理、数据操纵、事务和运行管理、数据库建立和维护等。
- 数据库系统(DBS):由数据库、数据库管理系统、应用程序和数据库管理员组成的存储、管理、处理和维护数据的系统。
注意DBS包括DB和DBMS
发展的几个阶段:
- 人工管理->文件系统->数据库系统
- 数据库优点:
1.数据结构化(与文件系统的本质区别) 2.数据共享性高、冗余度底、易扩充 3.数据独立性高 4.由数据库管理系统统一管理和控制
1.2数据模型
数据模型分类
- 第一类:概念模型
也称为信息模型,按用户的观点对信息和数据建模,主要用于数据库设计。
- 第二类:逻辑模型和物理模型
逻辑模型包括:层次、网状、关系 和其它模型(面向对象、键值对、基于文档等)。是按照计算机系统的观点对数据建模,主要用于数据库管理系统的实现。
物理模型:是数据库系统的核心和基础。是针对上述逻辑模型所说的内容,在具体的物理介质上实现出来。
概念模型
- 概念:实体、属性、码、实体型、实体集、联系 ?
- 表示方法:实体–联系方法。用E-R图来描述现实世界的概念模型。
数据模型的组成要素
- 数据结构(静态):描述数据库的组成对象以及其中的联系。
- 数据操作(动态):是数据库中各种对象(型)的实例(值)允许执行的操作的集合。主要有查询和更新两大类操作。
- 完整性约束:实体完整性、参照完整性、自定义完整性。
常用数据模型
模型 | 特点 | 优点 | 缺点 |
---|---|---|---|
层次 | 树结构 | 结构简单清晰,查询效率高,良好的完整性支持 | 适用范围小,对双亲的表示不友好 |
网状 | 图结构 | 描述更直接,存取效率高 | 结构复杂,DDL DML复杂,访问程序必须了解路径。 |
关系 | 关系规范化 (范式) | 严格数学基础,格式单一,存取路径透明 | 查询效率低 |
1.3数据库系统的结构
型和值
- 型是对某一类数据的结构和属性的说明
值是型的一个具体赋值。 - 模式是数据库中全体数据的逻辑结构和特征的描述(型),实例是模式的一个具体值(值)。一个模式可以对应多个实例。
- 模式相对稳定,实例相对变动。
三级模式
- 模式:也称为逻辑模式,是数据库全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。
- 外模式:也称用户模式,是数据库用户能够看到和使用的局部数据的逻辑结构和特征的描述,是数据库用户的数据视图。(是模式的子集,可以有多个,是保护数据库安全的措施)
- 内模式:也称存储模式,一个数据库对应一个内模式,是数据物理结构和存储方式的描述,是数据在数据库内部的组织方式。
两级映像与数据独立性
数据库系统的三级模式是数据的三个抽象级别,为了实现这三个抽象层次的联系和转换,数据库管理系统在这三级模式之间提供了两层映像即外模式/模式 和 模式/内模式映像,这两层映像保证了数据库系统中的数据具有较高的逻辑独立性和数据独立性。
- 外模式/模式:当模式改变时(例如增加新的关系、属性),对外模式/模式映像进行相应的修改可以使外模式保持不变。应用程序是基于外模式编写的,从而应用程序不必修改,保证了数据与程序的逻辑独立性。
- 模式/内模式映像:唯一。当数据库的存储结构改变时,对模式/内模式映像进行相应的修改可以使模式保持不变,从而使应用程序也不必改变。保证了数据与程序的物理独立性。
1.4数据库系统的组成
- 硬件:大内存、大磁盘、高通道能力
- 软件:DBMS、OS、高级语言及其编译系统等
- 人员:用户、应用程序员、DBM等
2.关系数据库
关系数据结构及其形式化定义
一些概念
- 域:一组有相同数据类型的值的集合,大小称为基数
- 关系:笛卡儿积的有限子集,是二维表(元组的集合)
- 属性:为了区分关系(二维表)的列,给每列取的名字称为属性。
- 码:关系中的某一个能唯一标识一个元组的属性组。
- 候选码:最小码 即真子集中不含码的码。
- 主码:候选码中被选出的一个
- 注意:主码 属于 候选码 属于 码
- 主属性:候选码的诸属性
- 非主属性:不包含在任何候选码中的属性。(主属性以外的属性)
关系分类:
- 基本关系(也称基本表):实际存在的表,是实际存储数据的逻辑表示
- 查询表:查询结果对应的表,是一种暂时的中间变量
- 视图表:由基本表或者其它视图导出的虚表。
关系的性质
- 1.列是同质的 2.不同属性(列)可来自同一个域 3.列的顺序无所谓 4.候选码不重复 5.行的顺序无所谓 6.分量必须取原子值
关系模式
关系数据库中,关系模式是型,关系是值。关系模式是对关系的描述。
- R(U,D,DOM,F)
- 关系名(属性名集合,属性域,映像集,依赖关系集)
关系操作
特点:高度非过程化的集合操作方式,即一次一集合的方式。
操作分类:
- 查询:选择、连接、投影、除、并、差、交
- 更新:插入、删除、修改。
关系数据语言分类
- 关系代数:如ISBL
- 关系演算:元组关系(如ALPHA)、域关系(如QBE)
- 双重特点:如SQL
关系的完整性
- 实体完整性:主码非空且唯一
- 参照完整性:外码为参照的主码或空
- 用户自定义完整性:用以满足语义要求
关系代数
关系代数是以集合运算为基础的运算
这里全部用SQL语句做类比引出关系代数的表达
集合运算
- 交:(关系r)∩(关系s),相当于SQL语句中INTERSECT关键字
- 并:格式:(关系r)∪(关系s),相当于SQL中UNION关键字
- 差:格式:(关系r)-(关系s),相当于SQL语句中的EXCEPT关键字
- 积:格式:(关系r)×(关系),等价于SQL语句中两个表进行笛卡尔积(全匹配)即SQL中进行多表连接时不指定连接条件的情况。
专门的关系运算
概念
- 象集:象集的本质是一次选择运算和一次投影运算。
- 例如关系模式R(X,Y),X和Y表示互为补集的两个属性集,对于遵循模式R的某个关系A,当t[X]=x时,x在A中的象集(Images Set)为:
Zx={ t[Z] | t ∈ A,t[X]=x }
它表示:A中X分量等于x的元组集合在属性集Z上的投影。
例如A:
X Y Z
a1 b1 c2
a2 b3 c7
a3 b4 c6
a1 b2 c3
a4 b6 c6
a2 b2 c3
a1 b2 c1
则a1在A中的象集为{(b1,c2),(b2,c3),(b2,c1)}
选择:
- 相当于SQL语句中的WHERE子句
- 格式:σ选择谓词(关系)
σSAL>1000(EMP)
等价于:SELECT * FROM EMP WHERE SAL > 1000
投影:
- 相当于SQL语句中的SELECT子句
- 格式:∏字段序列(关系)
∏ENAME,SAL(EMP)
等价于:SELECT ENAME, SAL FROM EMP
将上面两个组合起来:
SELECT ENAME, SAL FROM EMP WHERE SAL > 1000
∏ENAME,SAL(σSAL>1000(EMP))
连接:
自然连接
- 相当于SQL语句中的NATURAL JOIN
- 格式:(关系)⋈(关系)
- 形式化定义:r⋈s = ∏R∪S(σr.A1=s.A1 ∧ r.A2=s.A2 ∧ … ∧ r.An=s.An(r×s)) ,其中 R∩S={A1, A2, …, An}
∏name, course_id(instructor ⋈ teaches)
等价于:SELECT name, course_id FROM intructor natural join teaches
或者
theta连接
- 带限定条件的笛卡尔积
- 格式:(关系)⋈Θ(关系)
- 形式化定义:r ⋈Θ s = σΘ(r × s)
∏name, course_id(instructor ⋈instructor.ID = teaches.ID ∧ instructor.salary > 5000 teaches)
– 使用 join…on 的时候 on 后面写连接条件,然后将其它条件放在where里
等价于:SELECT name, course_id
FROM instructor join teaches on instructor.ID = teaches.ID
WHERE instructor.salary > 5000
除:
- 格式:(关系)÷(关系)
- 形式化定义:R÷S = ∏R∪S( ( ∏R-S® × S ) - ∏R-S, S® )
- 定义:给定关系R(X,Y)和S(Y,Z),其中X,Y,Z为属性组。R中Y与S中的Y可以有不同的属性名,但必须出自相同的域集。R与S的除运算可以得到一个新的关系P(X),P是R中满足下列条件的元组在X 属性列上的投影: 元组在X上的分量值x的像集Y(x)包含S在Y上的投影的集合。
求解步骤:
第一步:找出关系R和关系S中相同的属性,即Y属性。在关系S中对Y做投影(即将Y列取出);
第二步:被除关系R中与S中不相同的属性列是X,关系R在属性X上做取消重复值的投影;
第三步:求关系R中X属性对应的像集Y;
第四步:判断包含关系,R÷S其实就是判断关系R中X各个值的像集Y是否包含关系S中属性Y的所有值。
运算间的关系
并、差、投影、选择、笛卡尔积是五种基本运算,其它三种交、连接、除可以用这五种来表达
- 交:R交S = R-(R-S)
- 连接:R⋈nS=σn(RxS) (n为条件)
- 除:R÷S = ∏R∪S( ( ∏R-S® × S ) - ∏R-S, S® )
3.SQL 4.安全 5.完整
(见其它部分)
6.关系数据理论
问题的提出
规范化理论解决的问题:如何构造合适的数据逻辑结构。
是为了提高关系数据库的查询效率而提出的
不好的关系模式存在的问题:
- 数据冗余
- 更新异常
- 插入异常
- 删除异常
数据依赖分类:
- 函数依赖:
- 多值依赖:
规范化
函数依赖:
- 定义:R(U)是属性集U上的关系模式,X、Y是U的子集。若对于R(U)的任意一个可能的关系r,r中不可能存在两个元组在x上的属性值相等,而在Y上的属性值不等,则称X函数确定Y或Y函数依赖于X,记做X->Y。
- X->Y但Y不属于X,则称X->Y是非平凡的函数依赖。
- X->Y但Y属于X,则称X->Y是平凡的函数依赖。
- 定义:在R(U)中,如果X->Y,并且对于x的任何一个真子集x’,都有X’ !->Y 则称Y对X完全函数依赖。
- 若X->Y,但Y不完全函数依赖于X则称Y对X部分函数依赖。
- 定义:在R(U)中,如果X->Y(Y不包含于X),Y!->X,Y->Z,(Z不包含于Y)则称Z对X传递函数依赖。
码
设K是R(U,F)中的属性或者属性集合,若U完全函数依赖于K,则称K为R的候选码。若U部分函数依赖于K则K称为超码,候选码是最小的超码。
范式
- 通常按照属性间依赖情况来区分关系规范程度即属于的范式。
- 一个第一级的范式可以通过模式分解转化成若干个高一级的范式的集合,这个过程就叫规范化。(这种分解不是唯一的)
定义:
范式 | 定义 |
---|---|
1NF | 一个分量必须是不可再分的数据项。 |
2NF | R属于第一范式,且每一个非主属性完全函数依赖于任何一个候选码,则R属于第二范式 |
3NF | R(U,F)属于第一范式,若R中不存在这样的码,属性组Y及非主属性Z使得X->Y,Y->Z成立,Y!->X ,则称R(U,F)属于第三范式 |
BCNF | R(U,F)属于第一范式,若x->Y 且Y不属于X时X必包含码,则R(U,F)属于BCNF(在函数依赖范畴已达最高级别) |
转化:
- 第一范式通过消除非主属性对码的部分函数依赖转化为第二范式
- 第二范式通过消除非主属性对码的传递函数依赖转化为第三范式
- 第三范式通过消除主属性对码的部分和传递函数依赖转化为BC范式
判别方法:
- 所有属性都是不可再分的基本数据项,则属于第一范式
- 若属于1NF且
- 若属于1NF且
- 若属于1NF且
数据依赖公理系统
Armstrong公理系统
逻辑蕴含
- 对于满足一组函数依赖F的关系模式R(U,F),其任何一个关系r若函数依赖x->Y都成立(即r中任意两元组t、s,若t[x]=s[x],则t[y]=s[y]),则称F逻辑蕴含x->Y。
闭包
- 关系模式R(U,F)中为F所逻辑蕴含的函数依赖的全体叫做F的闭包,记为F+
最小依赖集
- 如果函数依赖集F满足以下条件,则称F为一个极小函数依赖集,亦称为最小依赖集或最小覆盖
1.F中任一函数右部仅有一个属性
2.F中不存在x->A 使得F与F-{X->A}等价
3.F中不存在x->A,X有真子集Z使得F-{X->A}并{Z->A}与F等价 - 每一个函数依赖集均等价于一个极小函数依赖集Fm,此Fm称为F的最小依赖集。
7.数据库设计
概述六个阶段
-
系统需求分析
对现实世界要处理的对象进行详细的调查,通过对原系统的了解,收集支持新系统的基础数据并对其进行处理,在此基础上确定新系统的功能。 -
概念结构设计
将需求分析数据抽象成局部E-R模型,再将局部E-R模型集成为全局E-R模型。
概念结构设计四种方法:自顶向下、自底向上、逐步扩展、混合策略 -
逻辑结构设计
将概念模型转换成特定DBMS所支持的数据模型的过程
由初始关系模式设计到关系模式规范化再到模式评价 -
物理结构设计
对于给定的逻辑数据模型,选取一个最适合应用环境的物理结构 -
数据库实施
根据逻辑设计和物理设计的结果,在计算机上建立起实际的数据库结构、装入数据、进行测试和试运行的过程。 -
数据库运行和维护
主要有以下三项内容:
- 维护数据库的安全性和完整性
- 监测并改善数据库性能
- 重新组织和构造数据库
每个阶段完成的具体工作:
- 需求分析:分析各个用户的需求。
- 概念阶段:设计E-R图,形成概念模式
- 逻辑设计:E-R图转换成具体的数据模型形成逻辑模式,然后根据用户需求建立必要的视图形成外模式。
- 物理设计:建立索引等,形成内模式。
概念结构设计
E-R模型
联系分类
- 两个实体型之间:一对一、多对多、一对多
- 两个以上实体型:一对一、多对多、一对多
- 单个实体型内部:一对一、多对多、一对多
E-R图
- 表示:实体型用矩形,属性用椭圆,联系用菱形表示。
实体属性划分原则:
- 属性不可再分
- 属性不能与其它实体有联系
E-R图的集成
- 合并E-R图,生成初步E-R图:消除各分E-R图之间的属性、命名、结构冲突
- 消除不必要的冗余,设计基本E-R图
逻辑结构设计
E-R图向关系模型的转换原则
- 1:1联系可与任一端合并,或者转化为独立关系模式。
- 1:n联系可转化为关系模式,或者与n端合并
- m:n联系转化为关系模式
- 多个实体间的多元联系可转换为一个关系模式
- 具有相同码的关系模式可合并
数据模型的优化
数据库设计结果不唯一,并不是规范化程度(满足的范式)越高越好。
设计用户子模式
1.取别名 2.定义视图 3.简化使用
8.数据库编程
应用系统中使用SQL编程的方式主要有:
- 嵌入式SQL、过程化SQL、存储过程和自定义函数:
基本的SQL是高度非过程化的语言。嵌入式SQL将SQL语句嵌入程序设计语言,借助高级语言的控制功能实现过程化。过程化SQL是对SQL的扩展,使其增加了过程化语句功能。过程化SQL程序的基本结构是块。所有的过程化SQL程序都是由块组成的。这些块之间可以相互嵌套,每个块完成一个逻辑操作。过程化SQL块主要有命名块和匿名块。匿名块每次执行时都要进行编译,它不能被存储到数据库中,也不能在其他过程化SQL块中调用。过程和函数是命名块,他们被编译后保存在数据库中,称为持久性存储模块(PSM),可以被反复调用,运行速度较快。函数必须指定返回的类型。
- ODBC:用户应用程序->ODBC编程接口->ODBC驱动程序管理器->(多个)数据库驱动程序->数据源(具体数据库)。
- JDBC:与ODBC类似
**一些练习题
一些概念
- 在函数依赖范畴,最高可达第三范式
- 关系模式中的属性全是主属性,其至少达到第三范式
- 关系模式整个属性组是码,最高至少满足3NF
- 数据冗余可能导致浪费存储空间、修改复杂、数据不一致性。
- 关系代数的连接=选择+笛卡儿积
- 关系数据模型的基本数据结构是关系
- 安全性控制方法:用户标识鉴定、存取控制、审计(事后检查)、数据加密
- 完整性控制可以保证数据及语义正确有效
- 触发器只能定义在基本表上,不可以定义在视图上。
- 数据冗余是数据库数据不一致的根本原因
- 聚合函数count不会忽略空值(SUM、MAX、AVG等会)
- SQL中的SELECT相当于关系代数中的投影操作
- 关系代数是以集合运算为基础的运算,关系演算是以谓词演算为基础的
- 对关系模式进行规范化的目的是为了减少数据冗余
简述三级模式两级映像的内容与优点:
三级模式是指内模式,模式和外模式。数据库系统的三级模式是对数据的三个抽象级别(),它把数据的具体组织管理留给DBMS,使用户能逻辑抽象的处理数据而不必关心数据在计算机中的表示和存储。
为了在内部实现这三种抽象层次的转换,设计了内模式/模式映射确定它的物理独立性,模式/外模式映射确定它的逻辑独立性,也就是二级映射。
简述DBS的数据与程序的独立性
- 数据与程序的独立性分为逻辑独立性和物理独立性
- 逻辑独立性:当模式改变时DBMS对各个外模式/模式映像做相应修改可以使外模式保持不变,从而使应用程序不必修改。保证了数据与程序的逻辑独立性。
- 当数据库的存储结构改变时DBMS对模式/外模式映像做相应修改可以使模式保持不变,从而使应用程序不必修改。保证了程序与数据的物理独立性。
- 所谓独立性就是一个的变化不会影响另外一个,逻辑/物理与程序的独立性就是逻辑结构/物理结构改变了程序本身不用改变,因为他们的改变都被两层映像给屏蔽了。
简述关系数据模型的优缺点
优点:
- 建立在严格的数学概念之上
- 数据结构简单清晰用户易懂易用
- 存取路径对用户透明从而有更高的数据独立性、安全性
缺点:
- 由于存取路径透明,查询效率不高。
简述数据库设计的基本步骤
- 需求分析:了解与分析用户需求(包括数据与处理)
- 概念结构设计:通过对用户需求进行综合、归纳与抽象,形成独立于DBMS的概念模型。
- 逻辑结构设计:将概念结构转化为某个DBMS支持的数据模型并优化
- 数据库物理设计:为逻辑模型选取最适合应用环境的物理结构.
- 数据库实施:建立数据库,编写调试应用程序,数据入库,测试运行
- 运行和维护:运行过程中对其进行评价调整与修改
辨析关系、关系模型、关系数据库
- 关系:笛卡儿积的有限子集,是二维表(元组的集合),是关系模式在某一时刻的状态或内容。
- 关系模式:关系的描述称为关系模式,是五元组R( U,D,DOM,F)
关系模式(型)是静态稳定的、关系(值)是动态不断变化的。
- 关系数据库也分型和值。关系数据库模式是对关系数据库型的描述,包含若干域的定义以及在这些域上定义的若干关系模式。关系数据库的值是这些关系模式在某一时刻对应关系的集合通常就称为关系数据库。
简述视图的优点
- 简化用户的操作
- 使用户能够以多角度看待同一数据
- 提供了一定程度的逻辑独立性
- 对机密数据提高安全保护
简述相关子查询的执行顺序
- 首先选取父查询的第一行,内部子查询利用其相关属性值进行查询
- 然后根据子查询返回结果判断是否满足查询条件,若满足则放入父查询结果中
- 重复上述过程,直至处理完父查询表中的每一个元组。
判断满足某种函数依赖时的码以及满足的范式方法:
码:能推出所有属性的左侧元素的集合
范式:
- 属性不可再分则满足1NF
- 1NF且非主属性没有部分函数依赖(x->Y,则x的子集!->Y)则满足2NF
- 2NF且非主属性没有传递函数依赖(x->Y->Z)则满足3NF
- 3NF且左侧必含有码则满足BCNF
求最小依赖集的步骤:
- 1、首先,先利用函数依赖的分解性,将函数依赖集中右部不为单个属性的分解为单属性。
函数依赖的分解性 若X→YZ,则X→Y 且 X→Z。
- 2、对于经过第1步筛选后的函数依赖集F中的每一个函数依赖X→A,进行以下操作:
- 2.1、将X→A从函数依赖中剔除
- 2.2、基于剔除后的函数依赖,计算属性X的闭包,看其是否包含了A,若是,则该函数依赖是多余的(这里体现出前面说的等价,因为如果基于化简后的函数依赖依赖,计算X的闭包依然包含A,则说明A可以由其他依赖推出,X→A不是必须的),可以删除,否则不能删除
- 3、对于经过第2步筛选后的函数依赖集F中每个左部不为单个属性的函数依赖AB→Y,进行以下操作:
我们约定,经过第二步筛选后的函数依赖集记为F1,经过第三步处理后的函数依赖集为F2。
- 3.1、去除A,得B→Y,得F2,基于F1和F2计算属性B的闭包,如果二者相等,则说明它们是等价的,A可以去除;如果不相等,则A不能去除。
- 3.2、去除B,得A→Y,得F2,基于F1和F2计算属性A的闭包,如果二者相等则说明它们是等价的,B可以去除;如果不相等,则B不能去除。
SQL和关系代数的转换
- SELECT x FROM a WHERE b;等价于: ∏ x (σ b (a));
- SELECT x FROM m,n WHERE b;等价于: ∏ x (m ⋈b n);
常用SQL句式
- SELECT xx FROM xx WHERE xx
- INSERT xx INTO xx VALUES(xx)
- UPDATE xx SET xx WHERE xx
- DELETE xx FROM xx
- CREATE TABLE xx (xx)
- CREATE VIEW xx AS xx
- DROP TABLE xx
- GRANT xx ON xx TO xx
- REVOKE xx ON xx FROM xx