Linux基础——裸金属主机重装系统进入kernel Panic

裸金属主机重装系统进入kernel Panic

1、问题描述

        租户裸金属主机重装系统,重启后进入”end Kernel panic – not syncing:Fatal exception”;

 

2、问题分析

   i.内存问题(非此类问题,忽略)

      按照问题描述内核回退Call trace是__pte_alloc内核物理内存调用函数,怀疑主机内存条损坏。

        检查内存

        ①方法一:(count值为0,未发现异常。)

                 grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count

                 备注:

                 count大于0表示有错误;
                 mc代表第几个cpu;
                 csrow内存通道;
                 ch第几个内存;

 

        ②方法二:(补充:如内存问题出现unknow。)

                 lshw -c memory -json

                 备注:查看硬件信息,参数class类名“-C”包含参数cpu/processor/memory/disk等;

 

        ③方法三:(补充:如出现内存Unknown无法识别,表示内存硬件、驱动异常。)

                 dmidecode -t memory

ii./boot启动项数据丢失

        ①重启裸金属服务器

                 通过ipmi重启;

        ②按“e”编辑内核,进入单用户模式

                 在Linux16修改“ro”为“rw”,添加init=/bin/bash;

        ③重新加载/etc/fstab

                 进入单用户,查看/etc/fstab挂载情况,挂载为“/”、“/var”、“swap”、“/boot”、“/boot/efi”;

                 通过mount -a方式挂载“/dev/mapper/rootvg-var”到目录“/var”失败;

 

        ④问题原因

                 检查pvs、pvdisplay、vgs、vgdisplay、lvs、lvsdisplay、lvscan

                 检查lvscan发现/dev/rootvg/var处于inactive状态;

                 定位到问题可能在逻辑卷未激活处于inactive状态,导致系统无法登入;

 

iii.密码错误(可能存在密码问题)

                 ①单用户模式修改密码

                         passwd root

                         Bclinux@123!@#

                 ②重启裸金属服务器

                         reboot

                         或

                         exec /sbin/init

3、问题处理

        ①激活/dev/rootvg/var

                 通过lvchange -ay /dev/rootvg/var激活;

 

        ②重启裸金属服务器

                 重启后正常登入主机;

4、结论

        该裸金属服务器由于重装系统,逻辑卷/dev/rootvg/var和/dev/rootvg/boot未激活inactive状态,导致系统启动读取/etc/fstab挂载失败,进入单用户lvchange手动激活逻辑卷重启恢复正常;

5、涉及知识点

        物理卷、卷组、逻辑卷相关知识;

        物理内存排查相关知识;

6、参考

        https://zhuanlan.zhihu.com/p/82406447

https://www.ezix.org/project/wiki/HardwareLiSter


 

posted on 2024-09-30 21:03  gkhost  阅读(70)  评论(0编辑  收藏  举报

导航