安庆

导航

上一页 1 2 3 4 5 6 7 8 9 ··· 17 下一页

2019年11月12日 #

集群云盘报错问题排查

摘要: 当存储和计算分离之后,给容器挂载的硬盘一般是块设备,但这个块设备可能是在其他主机上,使用iscsi协议来读写。 最近遇到一个问题,当iscsi的对应target出问题之后,容器中写盘出现io error, [1808657.505206] blk_update_request: critical m 阅读全文

posted @ 2019-11-12 09:36 _备忘录 阅读(3458) 评论(0) 推荐(0) 编辑

一个监控工具monit

摘要: 最近看了一个问题,monit监控在读取配置文件之后,访问的文件是残留在容器中的,导致认为服务异常,其实一开始容器启动,并没有对应的服务。 它会检查/var/run/syslogd.pid是否存在,并且里面的pid是否和运行的服务一致,由于这个文件在异常掉电时,并不会清理,所以在容器起来的时候,检查报 阅读全文

posted @ 2019-11-12 09:23 _备忘录 阅读(314) 评论(0) 推荐(0) 编辑

2019年10月23日 #

如何保证遍历parent的时候的task的存在性

摘要: 在一次crash的排查过程中,有这么一个内核模块,他需要往上遍历父进程, 但是在拿父进程task_struct中的一个成员的时候,发现为NULL了, 具体查看父进程,原来它收到信号退出中。 那么怎么保证父进程的存在性呢? 用tasklist_lock这把读写锁即可。 阅读全文

posted @ 2019-10-23 21:05 _备忘录 阅读(261) 评论(0) 推荐(0) 编辑

未关中断情况下的hardlock

摘要: 最近遇到一例crash,3.10内核,hardlock,查看对应的堆栈,中断是使能的。 查看对应的hrtimer_interrupts和hrtimer_interrupt_save的值,发现确实相等。 具体可参考: 百思不得其解,然后咨询os的同事茂春兄,然后他很轻描淡写第说,他遇到过,并随手给了个 阅读全文

posted @ 2019-10-23 20:54 _备忘录 阅读(298) 评论(0) 推荐(0) 编辑

2019年10月16日 #

通过cpu热插拔解决rcu stall的问题

摘要: 在linux 3.10环境一次故障处理中,发现有类似如下打印: NFO: rcu_sched_state detected stalls on CPUs/tasks: {15 } (detected by 4, 6002 jiffies,其余信息省略) 该环境没有开启rcu的callback线程,也 阅读全文

posted @ 2019-10-16 21:44 _备忘录 阅读(2145) 评论(1) 推荐(0) 编辑

ipi发送阻塞导致crash

摘要: 3.10的内核, 在子进程退出的时候,发送信号通知父进程,此时是持有父进程的sighand中的spinlock的,然后父进程和该子进程不在一个核上,发送ipi的reschedule中断给对应的核, 但是,由于信号其实是异步机制,在没有发送ipi之前,对应的接收进程已经在处理信号, 处理信号的过程中, 阅读全文

posted @ 2019-10-16 21:35 _备忘录 阅读(644) 评论(0) 推荐(0) 编辑

2019年9月28日 #

io几乎没有,iowait却很高

摘要: 遇到如下一种情况: 如果iostat看不到什么io,那么就要看下是否nfsiostat,如果nfsiostat没什么输出,就要看下是不是很多进程在等待nfs的io。 阅读全文

posted @ 2019-09-28 08:58 _备忘录 阅读(731) 评论(0) 推荐(0) 编辑

rcu使用遇到问题汇总

摘要: 1.3.10内核,在项目中遇到一种情况,我们根据sk指针hash到一个cpu上,然后访问该cpu对应分配的一个数据区。 然后系统会偶尔crash掉,crash掉有两种情况,一种是cred的rcu回收时出现计数bugon,一种是hung, hung的这种一般是由于由一个持有mutex的进程在rttab 阅读全文

posted @ 2019-09-28 08:54 _备忘录 阅读(1429) 评论(1) 推荐(0) 编辑

2019年9月22日 #

i40e网卡驱动遇到的一个问题

摘要: 最近在排查一个crash文件的时候,遇到一个堆栈,即软中断收包的时候,skb的关联的dev是null,导致oops, 然后去crash分析的时候,发现skb的dev去不是null。 从oops到crash收集完毕,按道理是一段极为短的时间,因为,x86的架构,oops时会发送nmi给其他各个核要求s 阅读全文

posted @ 2019-09-22 15:57 _备忘录 阅读(1286) 评论(0) 推荐(0) 编辑

2019年7月29日 #

suse 11 sp3编译报错问题

摘要: suse安装,默认是不安装gcc的,今天安装gcc之后,编译suse11 sp3,报错如下: scripts/basic/fixdep.c:106:23: fatal error: sys/types.h: No such file or directory 当然另外也很多文件报找不到,这个时候需要 阅读全文

posted @ 2019-07-29 14:24 _备忘录 阅读(446) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 17 下一页