Mysql知识学习
一、概述
本文意在跟大家分享一些开发过程中遇到的常见Mysql问题和sql的优化技巧,有兴趣的朋友可以留言一起探讨进步。
二、Mysql常见优化技巧
1.使用联合(union)来代替手动创建的临时表
- MySQL UNION 操作符用于连接两个以上的 SELECT 语句的结果组合到一个结果集合中。
2.优化查询语句方法
- 在建有索引的字段上尽量不要使用函数进行操作,如在一个DATE类型的字段上使用YEAR()函数时会花费更长时间(因为会使索引不生效),如下:
select * from users where YEAR(`created_at`) > 2019; //会进行全表扫描
改成以下命令可以合理使用索引: select * from users where `created_at` > '2019-01-01’;
- explain select * from `order_exts_3` where `attr_name` like “%base_%”; 和
explain select * from `order_exts_3` where `attr_name` > "base_" and `attr_name` < "base_z”; 为什么一样? 因为字符索引是逐个查询
- explain select * from `lfq_config` where `attr` > "sms_action_" and `attr` < "sms_action_9”; 和
explain select * from `lfq_config` where `attr` like "sms_action_%”; 为什么一样?
因为字符索引是逐个查询,但是如果是%sms_action,则该语句没有走索引
3.对于多张大数据量的表JOIN,要先分页再JOIN,否则逻辑读会很高,性能很差
- 如果要用,一般是放到一个搜索引擎里面搜数据(如:opensearch)
4.优化字段设计
- 数字型比字符串型索引更高效、查询更快、占用空间更小
- 优先使用enum或set,(需要注意的是enum一旦确定,最好不要修改,否则当数据量大时,会锁表较久)
- 避免使用null字段、text、blob,不在数据库里面存图片
5.合理使用索引
- 索引个数最好不超过字段数20%
- 不在索引列使用数学运算或者函数运算,如where id+1 = 10; 改成 where id = 10 -1;
- 外键的使用会有额外开销,高并发时容易死锁
6.sql语句设计
- 尽量拆成简单sql,简单sql缓存命中率更高,一条sql只能在一个cpu运算,减少锁表时间
- 保持事务/DB连接短小,即用即连,尽可能少使用存储过程、触发器
- 减少使用sql函数对结果进行处理,多个字段时,将or改成union
- 避免负向查询,如不使用!=、<>、not in
- sql最终都会转化为同数据类型的列值进行比较,因为sql有隐式转换
7.在数据量较大时,需要考虑可能出现的查询条件组合是否会导致慢查询等问题
- 如:订单表,根据updated_at条件进行数据查询,但是根据created_at进行排序,这样当updated_at的顺序跟created_at时间差异较大的话,会导致明显的查询变慢
8.查询缓存
- 定义:查询缓存为sql文本和查询结果的映射,如果第二次查询的sql和第一次查询的sql完全相同且开启了查询缓存,则第二次查询就直接从查询缓存中取结果
- show variables like “%query_cache%”
三、索引专辑
1.原理
- Innodb一般是使用B+树作为查询,索引的值一般是放在叶子节点(如果是非主键索引,则叶子节点的内容还会包括主键的值)
2.索引类型
- 聚簇索引:主键索引,不是单独的索引类型,是一种数据存储方式,在InnoDB中,表数据文件本身就是按B+Tree组织一个索引结构,这棵树的data域保存了完整的数据记录。
- 非聚簇索引:相对于聚簇索引来说,又称为辅助索引或者二级索引,InnoDb的二级索引data域存储的是主键的值,而不是数据
3.回表
- 定义:回表指通过索引查到主键索引后,再次根据主键索引查询数据表的具体记录。
- 主要应用场景:当根据某个非主键索引查询某个非索引字段时,mysql是先根据索引查询出主键索引,然后根据主键索引查处记录所在位置,从而获取到数据。(也就是说会有两次查询,第二次查询就是我们所谓的回表操作)
四、sql专辑
1.having子句
- sql会在分组之前计算where子句,在分组之后计算having子句
- 如:select user_id,count(*) as num from `orders` group by user_id having num > 10;
2.判断子句case when then
- 多条件判断,属于select子句,case函数只返回第一个符合条件的值,剩下的case部分将会被自动忽略
- 如:select case when age > 55 then 老人 when age > 20 then 中年 else 少年 end
3.if 条件语句
- if(expression, true, false)
- 如:select *,if (book_name=‘java’, ‘已卖完’, ‘有货’) as product_status from book where price = 50
4.聚合函数
- select count(case when age > 18 then id end) as num from users;
5.子查询
6.按时间分组
- DATE_FORMAT(date, format)函数
- 如:select count(1) as num,DATE_FORMAT(created_at, "%Y-%m-%d %H:%i:00") as cr_time from orders where `created_at` > '2019-11-01 13:00' and status = 10 group by cr_time order by cr_time desc
7.把查询内容当成一个表进行连表查询
- select * from (select id, count(1) as a from B group by a order by a desc) as temp, article where temp.id = article.b_id;
五、binLog、redoLog和undoLog
1.binLog
- 定义:记录所有数据库表结构变更及数据变更的二进制日志
2.redoLog
- 将事务中操作的数据(记录的是最新的数据),备份到一个地方,通常是物理日志,记录的是数据页的物理修改
3.undoLog
- 在操作任何数据之前,将需要操作的数据备份到一个地方,用于在事务期间别的查询使用, 一般是逻辑日志
PS:redoLog和undoLog都是事务日志(用于保证事务的一致性)
六、基础架构
1.架构流程图
2.流程说明
1)基础架构:
server层:连接器->分析器->优化器->执行器
引擎层:innodb(默认)、mysiam、Memory
2)连接器:负责跟客户端建立连接、获取权限、维持和管理连接
注意点1:修改权限后,只有在新建的连接才会使用新的权限设置
注意点2:如果连接太久没操作连接器就会自动将它断开,wait_timeout 控制的,默认值是 8 小时。一些常驻脚本需要对这种情况做兼容
注意点3:如果全部使用长连接MySQL 占用内存涨得特别快,可能被OOM,MySQL在执行过程中临时使用的内存是管理在连接对象里面的
定期断开长连接,mysql_reset_connection
注意点4:查询缓存往往利大于弊,只要对表有更新,表上的查询缓存都会被清空,
query_cache_type 设置成 DEMAND,指定需要查询缓存是才使用。select SQL_CACHE * from T where id=1;
3)分析器:词法分析、语法分析。You have an error in your SQL syntax
4)优化器:优化器是在表里面有多个索引的时候,决定使用哪个索引;或者在一个语句有多表关联(join)的时候,决定各个表的连接顺序
5)执行器:调用引擎接口,执行计划、binlog
问题讨论
1.count(*) vs count(col) vs count(1)
- count(col),如果col是允许为null,则该命令会搜索全表,然后忽略字段为null的记录
- 执行效率:count(主键) > count(1) > count(col),count(*)mysql有底层优化,所以如果有主键索引的时候,count(*)和count(主键差不多)
参考文章:
1.临时表使用场景:http://www.sohu.com/a/283283740_120047065
2.explain命令详解:https://blog.csdn.net/UFO___/article/details/80951869
3.sql常见优化技巧:https://www.cnblogs.com/ka-bu-qi-nuo/p/7396647.html
4.事物日志介绍: