数据库规范化(范式)
数据库范式是建立数据库关系表的规范,遵守范式的级别越高,能够让数据冗余越少,下一级别的范式包含上一级别的所有范式;但是对于特定的的冗余数据(数据属性的对应关系不变)能够提高查询速度(无需连表查询)。
1.第一范式:确保表中的列的值是原子的;并且满足以下规则
- 如果一个列包含了多个值,那它不符合第一范式
- 列的值应该属于同一个领域
- 表中的列不应该有重复的名称
- 数据的存储顺序无关紧要
参考:https://zh.wikipedia.org/wiki/%E7%AC%AC%E4%B8%80%E6%AD%A3%E8%A6%8F%E5%8C%96
2.第二范式:消除非主属性对于候选键的部分函数依赖。即:数据表中的非候选键的属性,必须完全依赖于表中的候选键,不能只依赖部分候选键;
候选键:表中的某个属性的值或几个属性的组合值,能唯一标识一整行数据;则称这样的属性为候选键
函数依赖:若在一张表中,在属性(或属性组)X的值确定的情况下,必定能确定属性Y的值,那么就可以说Y函数依赖于X,写作 X → Y
参考:https://zh.wikipedia.org/wiki/%E7%AC%AC%E4%BA%8C%E6%AD%A3%E8%A6%8F%E5%8C%96
3.第三范式:消除非主属性的传递函数依赖;如果非主属性B依赖于主属性A,非主属性C依赖于非主属性B,那么主属性A和非主属性C之间存在依赖传递,不符合第三范式的要求;也就是说非主键属性之间应该是独立无关的。
参考:https://zh.wikipedia.org/wiki/%E7%AC%AC%E4%B8%89%E6%AD%A3%E8%A6%8F%E5%8C%96
4.BC范式:任何函数依赖(X->Y),X必须是候选键。意思是:任何属性(包括非主属性和主属性)都不能被非主属性所决定;BC范式要求主属性不能依赖于非主属性,这个也是第三范式和BC范式的主要区别
参考:https://zh.wikipedia.org/wiki/BC%E6%AD%A3%E8%A6%8F%E5%8C%96
5.第四范式:消除多值依赖;如果属性A依赖于B,属性C也依赖于B,且属性A和属性C没有依赖关系,但是造成了数据冗余,可以把表ABC分为BA,BC两个表来消除冗余数据
参考:https://zh.wikipedia.org/wiki/%E7%AC%AC%E5%9B%9B%E6%AD%A3%E8%A6%8F%E5%8C%96
6.第五范式:拆分表为更小的表,每个小表不可再分,且每个小表都能够通过候选键推导出来
参考:https://zh.wikipedia.org/wiki/%E7%AC%AC%E4%BA%94%E8%8C%83%E5%BC%8F
一般建表满足第三范式或者BC范式即可,第五范式被称为完美范式
参考:
https://www.zhihu.com/question/24696366
https://en.wikipedia.org/wiki/Database_normalization