mysql探究之null与not null
相信很多用了mysql很久的人,对这两个字段属性的概念还不是很清楚,一般会有以下疑问:
1、我字段类型是not null,为什么我可以插入空值
2、为毛not null的效率比null高
3、判断字段不为空的时候,到底要 select * from table where column <> '' 还是要用 select * from table where column is not null 呢。
带着上面几个疑问,我们来深入研究一下null 和 not null 到底有什么不一样。
首先,我们要搞清楚“空值” 和 “NULL” 的概念:
1、空值是不占用空间的
2、mysql中的NULL其实是占用空间的,下面是来自于MYSQL官方的解释
“NULL columns require additional space in the row to record whether their values are NULL. For MyISAM tables, each NULL column takes one bit extra, rounded up to the nearest byte.”
打个比方来说,你有一个杯子,空值代表杯子是真空的,NULL代表杯子中装满了空气,虽然杯子看起来都是空的,但是区别是很大的。
搞清楚“空值”和“NULL”的概念之后,问题基本就明了了,我们搞个例子测试一下:
- CREATE TABLE `test` (
- `col1` VARCHAR( 10 ) CHARACTER SET utf8 COLLATE utf8_general_ci NOT NULL ,
- `col2` VARCHAR( 10 ) CHARACTER SET utf8 COLLATE utf8_general_ci NULL
- ) ENGINE = MYISAM ;
插入数据:
- INSERT INTO `test` VALUES (null,1);
mysql发生错误:
- #1048 - Column 'col1' cannot be null
再来一条
- INSERT INTO `test` VALUES ('',1);
成功插入。
可见,NOT NULL 的字段是不能插入“NULL”的,只能插入“空值”,上面的问题1也就有答案了。
对于问题2,上面我们已经说过了,NULL 其实并不是空值,而是要占用空间,所以mysql在进行比较的时候,NULL 会参与字段比较,所以对效率有一部分影响。
而且B树索引时不会存储NULL值的,所以如果索引的字段可以为NULL,索引的效率会下降很多。
我们再向test的表中插入几条数据:
- INSERT INTO `test` VALUES ('', NULL);
- INSERT INTO `test` VALUES ('1', '2');
现在表中数据:
现在根据需求,我要统计test表中col1不为空的所有数据,我是该用“<> ''” 还是 “IS NOT NULL” 呢,让我们来看一下结果的区别。
- SELECT * FROM `test` WHERE col1 IS NOT NULL
字段尽可能用NOT NULL
,除非特殊情况。这句话在mysql优化的文章被大量的引用,但却不说明原因,下面就讲述一下相关内容NULL为什么多人用?1、NULL是创建数据表时默认的,初级或不知情的或怕麻烦的程序员不会注意这点。2、很多人员都以为not null需要更多空间,其实这不是重点。3、重点是很多程序员觉得NULL在开发不用去判断插入数据,写sql语句的时候更方便快捷。
网上很多资料都有写:Mysql官网文档:“NULL columns require additional space in the row
to record whether their values are NULL. For MyISAM tables, each NULL column
takes one bit extra, rounded up to the nearest byte.”
-----------------------------------------------Mysql难以优化引用可空列查询,它会使索引、索引统计和值更加复杂。可空列需要更多的存储空间,还需要mysql内部进行特殊处理。可空列被索引后,每条记录都需要一个额外的字节,还能导致MYisam
中固定大小的索引变成可变大小的索引--------这也是《高性能mysql第二版》介绍的解读:“可空列需要更多的存储空间”:需要一个额外字节作为判断是否为NULL的标志位“需要mysql内部进行特殊处理”:
注意:但把NULL列改为NOT NULL带来的性能提示很小,
除非确定它带来了问题,
否则不要把它当成优先的优化措施,最重要的是使用的列的类型的适当性.
- SELECT * FROM `test` WHERE col1 <> ''
可以看到,结果迥然不同,所以我们一定要根据业务需求,搞清楚到底是要用那种搜索条件。