Linux基础——裸金属主机重装系统进入kernel Panic
裸金属主机重装系统进入kernel Panic
1、问题描述
租户裸金属主机重装系统,重启后进入”end Kernel panic – not syncing:Fatal exception”;
2、问题分析
i.内存问题(非此类问题,忽略)
按照问题描述内核回退Call trace是__pte_alloc内核物理内存调用函数,怀疑主机内存条损坏。
检查内存
①方法一:(count值为0,未发现异常。)
grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
备注:
count大于0表示有错误;
mc代表第几个cpu;
csrow内存通道;
ch第几个内存;
②方法二:(补充:如内存问题出现unknow。)
lshw -c memory -json
备注:查看硬件信息,参数class类名“-C”包含参数cpu/processor/memory/disk等;
③方法三:(补充:如出现内存Unknown无法识别,表示内存硬件、驱动异常。)
dmidecode -t memory
ii./boot启动项数据丢失
①重启裸金属服务器
通过ipmi重启;
②按“e”编辑内核,进入单用户模式
在Linux16修改“ro”为“rw”,添加init=/bin/bash;
③重新加载/etc/fstab
进入单用户,查看/etc/fstab挂载情况,挂载为“/”、“/var”、“swap”、“/boot”、“/boot/efi”;
通过mount -a方式挂载“/dev/mapper/rootvg-var”到目录“/var”失败;
④问题原因
检查pvs、pvdisplay、vgs、vgdisplay、lvs、lvsdisplay、lvscan
检查lvscan发现/dev/rootvg/var处于inactive状态;
定位到问题可能在逻辑卷未激活处于inactive状态,导致系统无法登入;
iii.密码错误(可能存在密码问题)
①单用户模式修改密码
passwd root
Bclinux@123!@#
②重启裸金属服务器
reboot
或
exec /sbin/init
3、问题处理
①激活/dev/rootvg/var
通过lvchange -ay /dev/rootvg/var激活;
②重启裸金属服务器
重启后正常登入主机;
4、结论
该裸金属服务器由于重装系统,逻辑卷/dev/rootvg/var和/dev/rootvg/boot未激活inactive状态,导致系统启动读取/etc/fstab挂载失败,进入单用户lvchange手动激活逻辑卷重启恢复正常;
5、涉及知识点
物理卷、卷组、逻辑卷相关知识;
物理内存排查相关知识;
6、参考
https://zhuanlan.zhihu.com/p/82406447
https://www.ezix.org/project/wiki/HardwareLiSter