安庆

导航

2021年7月29日 #

numa 自动balance 的bug分析

摘要: 关于migrate_swap() 和 active_balance()之间的hardlock 背景:这个是在3.10.0-957.el7.x86_64 遇到的一例crash 下面列一下我们是怎么排查并解这个问题的。 一、故障现象 Oppo云智能监控发现机器down机: KERNEL: /usr/li 阅读全文

posted @ 2021-07-29 15:48 _备忘录 阅读(474) 评论(0) 推荐(0) 编辑

java单线程100%利用率

摘要: 容器内就获取个cpu利用率,怎么就占用单核100%了呢 背景:这个是在centos7 + lxcfs 和jdk11 的环境上复现的 目前这个bug已经合入到了开源社区, 链接为 https://github.com/openjdk/jdk/pull/4378 下面列一下我们是怎么排查并解这个问题的。 阅读全文

posted @ 2021-07-29 15:47 _备忘录 阅读(293) 评论(0) 推荐(1) 编辑

一例智能网卡(mellanox)的网卡故障分析

摘要: 一例智能网卡(mellanox)的网卡故障分析 背景:这个是在centos 7.6.1810的环境上复现的,智能网卡是目前很多 云服务器上的网卡标配,在oppo主要用于vpc等场景,智能网卡的代码随着 功能的增强导致复杂度一直在上升,驱动的bug一直是内核bug 中的大头,在遇到类似问题时,内核开发 阅读全文

posted @ 2021-07-29 15:45 _备忘录 阅读(1325) 评论(0) 推荐(0) 编辑

jbd2的死锁分析

摘要: 已经运行多年的jbd2,它还是死锁了 背景:这个是在centos7的环境上复现的,内核版本为3.10.0-957.27.2.el7 下面列一下我们是怎么排查并解这个问题的。 一、故障现象 oppo云内核团队接到运维兄弟收集的测试环境一例crash, 现象是load很高,卡得没法操作: KERNEL: 阅读全文

posted @ 2021-07-29 15:44 _备忘录 阅读(1071) 评论(0) 推荐(0) 编辑

一个dcache的性能问题分析

摘要: 如何识别并解决复杂的dcache问题 背景:这个是在centos7.6的环境上复现的,但该问题其实在很多内核版本上都有, 如何做好对linux一些缓存的监控和控制,一直是云计算方向的热点,但这些热点 属于细分场景,很难合入到linux主基线,随着ebpf的逐渐稳定,对通用linux内核 的编程,观测 阅读全文

posted @ 2021-07-29 15:43 _备忘录 阅读(350) 评论(0) 推荐(0) 编辑

systemd之导致内核 crash

摘要: 本文主要讲解linux kernel panic系列其中一种情况: Attempted to kill init! exitcode=0x0000000b 背景:linux kernel 的panic ,在日常的kernel维护中比较常见,不同的 kernel panic 有不同的背景,而这些背景的 阅读全文

posted @ 2021-07-29 15:42 _备忘录 阅读(2524) 评论(0) 推荐(0) 编辑