MySQL高级–范式与反范式
1. 背景
首先让我们来简单了解什么是范式与反范式
如下有部门表(包含:雇员、部门、部门领导)
EMPLOYEE | DEPARTMENT | HEAD |
---|---|---|
Jones | Accounting | Jones |
Smith | Engineering | Smith |
Brown | Accounting | Jones |
Green | Engineering | Smith |
我们知道,如果Brown接任Accounting的部门领导,那么可能会导致后面数据变化时,比如:“Jones”这一行显示的部门领导与“Brown”的就不一样了,那时就不能知道是哪个是对的了,此外,如果我们删除了Accounting部门的雇员,我们就会因此失去关于Accounting部门的本身的记录了。因此,我们需要对这个表进行范式化,这里我们将把这个表拆成两个表
雇员表
EMPLOYEE | DEPARTMENT |
---|---|
Jones | Accounting |
Smith | Engineering |
Brown | Accounting |
Green | Engineering |
部门表
DEPARTMENT | HEAD |
---|---|
Accounting | Jones |
Engineering | Smith |
Accounting | Jones |
Engineering | Smith |
范式–有三种 1:数据表示二维表,每一项都不可分割 2:(仅在组合主键时存在):消除函数依赖
3:消除传递依赖
不难发现这两张表符合第二范式,在这里我们使用名字来作为主键
2. 范式的优点
(1)范式的更新操作比反范式的要快
(2)如果表能很好的被范式化的话,说明表的数据比较少或没有重复的数据
(3)范式的表通常比较小,可以很好的放在内存中,执行会更快。
(4)很少有多余的数据意味着检索列表数据时更少需要DISTINCT或者GROUP BY语句。还是前面的例子:在非范式化的结构中必须使用DISTINCT或者GROUP BY才能获得一份唯一的部门列表,但是如果部门(DEPARTMENT)是一张单独的表,则只需要简单的查询这张表就行了。
3. 反范式的优点
(1)反范式化的schema因为所有数据都在一张表中,可以很好地避免关联。
(2)如果不需要关联表,则对大部分查询最差的情况——即使表没有使用索引——是全表扫描。当数据比较大时这可能比多表关联还要要快得多,因为这样避免了随机I/O(全表扫描基本上是顺序I/O)