安庆

导航

上一页 1 2 3 4 5 6 7 ··· 17 下一页

2021年7月29日 #

java单线程100%利用率

摘要: 容器内就获取个cpu利用率,怎么就占用单核100%了呢 背景:这个是在centos7 + lxcfs 和jdk11 的环境上复现的 目前这个bug已经合入到了开源社区, 链接为 https://github.com/openjdk/jdk/pull/4378 下面列一下我们是怎么排查并解这个问题的。 阅读全文

posted @ 2021-07-29 15:47 _备忘录 阅读(293) 评论(0) 推荐(1) 编辑

一例智能网卡(mellanox)的网卡故障分析

摘要: 一例智能网卡(mellanox)的网卡故障分析 背景:这个是在centos 7.6.1810的环境上复现的,智能网卡是目前很多 云服务器上的网卡标配,在oppo主要用于vpc等场景,智能网卡的代码随着 功能的增强导致复杂度一直在上升,驱动的bug一直是内核bug 中的大头,在遇到类似问题时,内核开发 阅读全文

posted @ 2021-07-29 15:45 _备忘录 阅读(1337) 评论(0) 推荐(0) 编辑

jbd2的死锁分析

摘要: 已经运行多年的jbd2,它还是死锁了 背景:这个是在centos7的环境上复现的,内核版本为3.10.0-957.27.2.el7 下面列一下我们是怎么排查并解这个问题的。 一、故障现象 oppo云内核团队接到运维兄弟收集的测试环境一例crash, 现象是load很高,卡得没法操作: KERNEL: 阅读全文

posted @ 2021-07-29 15:44 _备忘录 阅读(1071) 评论(0) 推荐(0) 编辑

一个dcache的性能问题分析

摘要: 如何识别并解决复杂的dcache问题 背景:这个是在centos7.6的环境上复现的,但该问题其实在很多内核版本上都有, 如何做好对linux一些缓存的监控和控制,一直是云计算方向的热点,但这些热点 属于细分场景,很难合入到linux主基线,随着ebpf的逐渐稳定,对通用linux内核 的编程,观测 阅读全文

posted @ 2021-07-29 15:43 _备忘录 阅读(350) 评论(0) 推荐(0) 编辑

systemd之导致内核 crash

摘要: 本文主要讲解linux kernel panic系列其中一种情况: Attempted to kill init! exitcode=0x0000000b 背景:linux kernel 的panic ,在日常的kernel维护中比较常见,不同的 kernel panic 有不同的背景,而这些背景的 阅读全文

posted @ 2021-07-29 15:42 _备忘录 阅读(2532) 评论(0) 推荐(0) 编辑

2021年6月7日 #

rcu的学习记录

摘要: crash> p rcu_sched_state.node[0] $13 = { lock = { raw_lock = { slock = 748760225 } }, gpnum = 21141468, completed = 21141467, qsmask = 1, expmask = 0, 阅读全文

posted @ 2021-06-07 15:41 _备忘录 阅读(174) 评论(0) 推荐(0) 编辑

虚机启动失败小问题记录

摘要: 有同事遇到虚机启动失败,我跟同事说,对于运维人员,你要把虚机看做机器,起不来你就进单用户看看,屏幕上的打印跟实际物理机相差不大, 最后进入grub中,将启动命令行加上 bash=/bin/bash ,然后加上debug,进去后发现虚机的系统盘满了,盘满了的原因是因为拉起的一个服务不停在core,导致 阅读全文

posted @ 2021-06-07 09:01 _备忘录 阅读(65) 评论(0) 推荐(0) 编辑

2021年3月2日 #

openjdk的bug

摘要: 容器内就获取个cpu利用率,怎么就占用单核100%了呢 背景:这个是在centos7 + lxcfs 和jdk11 的环境上复现的 下面列一下我们是怎么排查并解这个问题的。 一、故障现象 oppo内核团队接到jvm的兄弟甘兄发来的一个案例, 现象是java的热点一直是如下函数,占比很高: at su 阅读全文

posted @ 2021-03-02 14:40 _备忘录 阅读(294) 评论(0) 推荐(0) 编辑

2020年10月27日 #

docker hung住问题排查

摘要: 背景:这个是之前遇到的老问题。 # systemctl status lxcfs● lxcfs.service - FUSE filesystem for LXC Loaded: loaded (/usr/lib/systemd/system/lxcfs.service; enabled; vend 阅读全文

posted @ 2020-10-27 22:36 _备忘录 阅读(1382) 评论(0) 推荐(0) 编辑

2020年8月29日 #

docker 容器terminal失败

摘要: 关键一句话:docker 容器的teminal失败,一定是等待资源导致的,不管是pid资源,还是内存资源。本文主要讲因为内存资源导致进程D状态,然后导致teminal容器失败。 目前在集群中,cpu占用率其实一直较低,也就是说,load高目前都是因为D状态的进程多,或者说D状态的进程时间比较久,这种 阅读全文

posted @ 2020-08-29 13:14 _备忘录 阅读(643) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 17 下一页