CPU消耗,跟踪定位理论与实践

CPU消耗,跟踪定位理论与实践

一.性能指标之资源指标定位方案

1、打tprof报告方法

抓取perfpmr文件 60秒。
perfpmr.sh 60
从结果文件中取出tprof.sum

或直接抓取tprof
tprof –uskejzlt –x sleep 60

2、分析思路

首先看是Kernel、User、Shared Library中的那个方面占比消耗高。例如,如果是share lib占比比较高,则找到对应的share lib分页,查看具体哪个lib占用CPU高,再查看这个特定的lib中哪个函数占用CPU高。

如果通过以上方法不能定位到一个应用层的函数,而是定位到消耗CPU最高的是个系统函数。不但不认识这个系统函数,也看不出谁调用了这个系统函数,因为一些系统层的函数是通用函数(比如h_cede_end_point),从这类函数并不能看出是谁在调用。这种情况,可以通过这个系统函数相邻的那些能看懂的函数来猜测,因为占用CPU高的函数往往是同一个应用、同一个模块、同一类系统调用导致,他们具有扎堆出现的特点。

如果是kernal->lock占 2~3% cpu就是很多了。

如果定位到一个进程有问题,可以用Truss –c –p pid查看一个进程在干什么,比如,是在做fork,还是文件读写。

3. 示例

 

 

 

 

 

 

 二.理论分析,到底谁在消耗cpu?

 

 

用户+系统+IO等待+软硬中断+空闲

 

 

 

 

 祸首是谁?

用户

用户空间CPU消耗,各种逻辑运算
正在进行大量tps
函数/排序/类型转化/逻辑IO访问…
用户空间消耗大量cpu,产生的系统调用是什么?那些函数使用了cpu周期?
IO等待

 等待IO请求的完成

 

此时CPU实际上空闲
如vmstat中的wa 很高。但IO等待增加,wa也不一定会上升(请求I/O后等待响应,但进程从核上移开了)
 

 

 

 

 产生影响

用户和IO等待消耗了大部分cpu

吞吐量下降(tps)
查询响应时间增加

 慢查询数增加

对mysql的并发陡增,也会产生上诉影响

 

 三.如何减少CPU消耗?

减少等待

减少IO量

SQL/index,使用合适的索引减少扫描的行数(需平衡索引的正收益和维护开销,空间换时间)
提升IO处理能力
加cache/加磁盘/SSD

 

 

 减少计算

减少逻辑运算量

避免使用函数,将运算转移至易扩展的应用服务器中 如substr等字符运算,dateadd/datesub等日期运算,abs等数学函数

 

减少排序,利用索引取得有序数据或避免不必要排序 如union all代替 union,order by 索引字段等

禁止类型转换,使用合适类型并保证传入参数类型与数据库字段类型绝对一致 如数字用tiny/int/bigint等,必需转换的在传入数据库之前在应用中转好

简单类型,尽量避免复杂类型,降低由于复杂类型带来的附加运算。更小的数据类型占用更少的磁盘、内存、cpu缓存和cpu周期

 

 

 减少逻辑IO

 

index,优化索引,减少不必要的表扫描 如增加索引,调整组合索引字段顺序,去除选择性很差的索引字段等等

 table,合理拆分,适度冗余 如将很少使用的大字段拆分到独立表,非常频繁的小字段冗余到“引用表”

SQL,调整SQL写法,充分利用现有索引,避免不必要的扫描,排序及其他操作 如减少复杂join,减少order by,尽量union all,避免子查询等

数据类型,够用就好,减少不必要使用大字段 如tinyint够用就别总是int,int够用也别老bigint,date够用也别总是timestamp


 

 减少query请求量(非数据库本身)

适当缓存,降低缓存数据粒度,对静态并被频繁请求的数据进行适当的缓存 如用户信息,商品信息等 

  • 优化实现,尽量去除不必要的重复请求 如禁止同一页面多次重复请求相同数据的问题,通过跨页面参数传递减少访问等
  • 合理需求,评估需求产出比,对产出比极端底下的需求合理去除

升级cpu若经过减少计算和减少等待后还不能满足需求,cpu利用率还高T_T 是时候拿出最后的杀手锏了,升级cpu,是选择更快的cpu还是更多的cpu了?

低延迟(快速响应),需要更快的cpu(每个查询只能使用一个cpu) 

  • 高吞吐,同时运行很多查询语句,能从多个cpu处理查询中收益

 

posted @ 2020-04-20 20:15  吴建明wujianming  阅读(299)  评论(0编辑  收藏  举报